有趣的python小项目
文章平均质量分 70
一些有想法的爬虫、数据可视化或者小脚本...
DonLex
这个作者很懒,什么都没留下…
展开
-
突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制
文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn上次的文章《在爬100万数据的时候,我发现了爬虫的进阶之路》 ,有“怂恿”大家伙去突破淘宝的登录反爬,不知道有没有试了的。反正我是试了,也找到了三种方法。在这里分享一下账号密码登录(有滑块)微博第三方账号登录(无滑块)扫码登录上面都是使用 Selenium 进行模拟登录的,这样就可以不用手动添加各种...原创 2019-04-25 10:46:00 · 23886 阅读 · 21 评论 -
微信自动回复机器人
首发于慕课网手记通过itchat获取微信的相关消息,将微信消息传输到青云客机器人接口,获取机器人的返回消息。将返回消息返回给微信消息的发送人。以此实现将微信个人号变身为聊天机器人。因为图灵机器人现在需要实名认证,并每天免费数量只有100条,感觉非常麻烦,所以找了一个免费的接口-青云客,虽然这个智能程度没有图灵机器人那么高,但是也足够应付基本的消息了,不过有时候有点智障,谨慎使用哈。以下...原创 2019-07-04 22:04:56 · 3200 阅读 · 0 评论 -
爬取猫眼评论,分析《阿丽塔:战斗天使》
文章首发于慕课网日本漫画《铳梦》改编电影《阿丽塔:战斗天使(Alita: Battle Angel)》于2019年2月22日在中国大陆上映了。近几天,网上对于这部电影的分析评论也很多,今天通过猫眼电影上的评论粗浅地看一下大众对这部科幻电影的评价。工具库jiebapyechartswordcloudmatplotlib分析网站通过在浏览器模拟移动端请求评论的数据,可以看到随...原创 2019-02-24 22:03:25 · 979 阅读 · 0 评论 -
通过猎聘的招聘信息找出学习线路规划
文章首发于微信公众号:Python绿洲。如需转载,请联系该公众号前言之前发过一篇文章《 Python or Java?Boss直聘告诉你该如何选择》, 主要是这两种语言方向在应聘岗位上的比较,没有涉及具体的岗位要求的分析。前两天,刚好看到网上的一些学习路线图,又对比了招聘网站上的要求,发现这两者其实差不多。所以就用爬虫爬取了猎聘网上的岗位信息,对这些招聘信息进行处理,从中找出需要掌握的一...原创 2018-12-10 12:33:12 · 534 阅读 · 0 评论 -
Numpy基础(一)
Numpy是python用于进行可科学计算,尤其是数据分析时,所用到的一个基础库。它是大量Python数学和科学计算包的基础,比如pandas库就用到了Numpy。安装国际安装惯例 pip install numpynumpy的心脏:ndarrayNumpy最重要的一个特点就是其N维数组对象(即ndarray);其实说是 N维的矩阵更好理解 。它是一种由同质元素组成的...原创 2018-08-02 15:03:59 · 370 阅读 · 0 评论 -
Numpy基础(二)
Numpy作为科学计算的基础包,那就理所应当的有计算方面的优势,今天就来吧啦一下Numpy的计算 算数运算符数组的第一类运算是使用算术运算符进行的运算。最显而易见的就是数组加上或者乘以一个标量In [1]: import numpy as npIn [2]: a = np.arange(4)In [3]: aOut[3]: array([0, 1, 2, 3])In ...原创 2018-08-04 16:04:27 · 288 阅读 · 0 评论 -
Numpy基础(三)
Numpy数组跟列表很像,那列表的索引和切片的方法在Numpy中是否会存在呢。答案是肯定的,因为设计者肯定会考虑使用者的使用惯性。如果是与使用习惯相反,那肯定是推广不起来的。因此,介绍一下Numpy的索引和切片索引机制Numpy数组索引机制指的是用方括号( [ ] )加序号的形式引用单个数组元素,它的用处很多,比如抽取元素,选取数组的几个元素,甚至为其赋一个新值。一维数组一维数...原创 2018-08-20 14:13:25 · 307 阅读 · 0 评论 -
Xadmin的安装 - 支持Django2.0
最近在弄Django的一个练手项目,大部分工作都已经做完了,就想着搞一个后台管理。用Django自带的admin的话,不是很美观,体验也不是很好。于是想到了Xadmin这个神器。 但是机子装的是Django2,所以安装过程出现了很多问题。最后搜了一番还是找到了解决办法。由于使用的是Django2.0的版本,所以需要安装xadmin项目django2分支的代码。 1. 直接pip安装:...原创 2018-07-18 10:11:55 · 800 阅读 · 1 评论 -
xadmin的list_display中显示通过外键关联的其它值
前段时间,一直在弄一个Django的小项目。在运用xadmin的过程中出现了一个问题,就是想在list_display中显示通过外键关联的其他属相值,而不是显示一个 object。 具体的数据库关系是这样的 在网上找了很多资料都没有结果。后来一想,既然是通过外键关联的,那肯定可以通过外键进行获取。抱着这个想法,进行了实验,没想到真成了#adminx.py文件#由time表的ti...原创 2018-07-21 14:27:10 · 6717 阅读 · 12 评论 -
Django使用apscheduler完成定时任务
想在Django中使用定时任务,但是找了一下发现celery和django-crontab插件都只支持Linux平台,后来发现APScheduler支持windows。下面记录一下APScheduler的使用安装 pip install apscheduler==2.1.2建议安装这个版本的,这个亲测支持django2.0,最高版本的没试过使用在任意一个app内的view...原创 2018-07-23 16:34:25 · 10027 阅读 · 13 评论 -
pyqt5安装与pycharm配置
最近几天新入坑了python的GUI设计,回想一下我为什么会入门这个???好像是在知乎上看到你都用 Python 来做什么?这篇文章,看到有人回答说将python打包成exe文件,然后就想把之前弄得一个selenium的自动化项目打包成exe,现在想想有点滑稽,好像需要Chrome的版本对应打包的chromedriver才行(手动滑稽)下面将介绍一下pyqt5的安装,在安装的时候我也浪费了...原创 2018-05-22 10:09:29 · 69658 阅读 · 43 评论 -
利用Numpy和PyQt5制作矩阵计算器
相信大家在读大学的时候都会上过一门叫做线性代数的课程,在这门课中,需要掌握各种矩阵的知识,并且还要有异常强大的心理才能在各种矩阵运算中脱身,否则,大学除了有一棵高高的树,还有一棵很现代的树,上面都挂着很多人 可能有人不信,下面就放上一道简单的计算行列式的例题,来感受一下这繁杂的过程吧当然,只用一道是看不出什么的,但是当你需要在众多的习题中,快速得到答案时,这就很烦人了,对吧。正所谓,程序...原创 2018-08-04 16:09:28 · 2250 阅读 · 0 评论 -
chromedriver与Chrome映射表(更新到chrome v67)
在配置selenium的过程中,需要安装相应的webdriver,但是网上没有最新的映射表,导致安装的版本可能不匹配,出现很多问题,因而打击了入门的热情,在这里,以一个过来人的身份,整理了一下最新的版本映射表,希望能帮助大家 chromedriver版本 Chrome版本 v2.38 v65-67 v2.37 v64-66 v2.36 v63-...原创 2018-05-03 10:29:52 · 784 阅读 · 0 评论 -
selenium的安装与配置
selenium是爬取网页的一大利器,现在就来记录一下selenium的安装过程与配置1.安装selenium直接在命令窗口中输入 pip install selenium由于我这里已经安装过了,就不贴图了 安装成功,再在python的交互环境中输入 import selenium如果没有报错就证明没有问题了2.安装浏览器驱动各个浏览器驱动下载...原创 2018-05-04 00:14:37 · 558 阅读 · 0 评论 -
selenium制作——Q宠大乐斗辅助脚本
前段时间,腾讯宣布停止乐斗Ⅱ和QQ宠物的运营,然后就订阅号里就被各种回忆杀的推文刷屏了。今天也来称蹭一下”热点”,虽然有点晚。 都说“陪伴是最长情的告白”,那些陪我们走过年少时光的小游戏,你还记得多少? 可能很多90后都玩过乐斗Ⅱ。但是很遗憾,今天的主角不是它,而是它的兄弟——“Q宠大乐斗”。今天分享的是:如何使用前几天分享的selenium的奇淫技巧,让“Q宠大乐斗”自动运行,自动打游戏。...原创 2018-08-02 14:53:31 · 7724 阅读 · 5 评论 -
爬虫入门Demo(一)---抓取博客的文章标题和链接
现在Python非常的热门,之前在一个公众号的启发下,萌发了学习爬虫的兴趣,之前自学过Python的一点基础,所以经过几天的折腾终于弄出了一个小小的案例—用BeautifulSoup爬取了自己博客一些信息,有点小兴奋,想分享一下内心的小成就,希望大神不要笑话1.首先需要安装好BeautifulSoup如果你还没有安装好BeautifulSoup,参考这个博客点击跳转2.观察信息位置...原创 2018-04-05 20:23:29 · 5495 阅读 · 8 评论 -
Window下安装lxml
今天在看BeautifulSoup的文档的时候,想安装lxml解析器,但是直接用pip install lxml的时候却报错,最后在度娘那里找到了完美的解决办法.靠人品的安装步骤:如果你已经安装了pip,那么可以直接试一下用pip install lxml看行不行,如果没有报错的话,那么恭喜你,下面的内容你可以不看了,如果报错的话,可以参考下面的内容通过lxml的.whl文件来进行...原创 2018-04-06 13:43:22 · 1084 阅读 · 3 评论 -
win10下安装MongoDB
1.先去官网下载对应的版本点击MongoDB官网下载 2.安装下载完后是一个msi格式的文件,如下图 点击进行安装,安装比较简单,类似于普通QQ软件,中间主要是选择“Custom”自定义 安装路径修改下:D:\mongodb ,然后不断“下一步”,安装至结束。 (注意:在选完自定义安装位置后的下一步记得要把左下角的√取消,否则会下载图形化界面,如果你网速慢的话,会等很久...原创 2018-04-06 22:19:56 · 11348 阅读 · 6 评论 -
爬虫入门Demo(二)---抓取豆瓣电影Top205
本来前几天就把豆瓣Top250的电影抓取下来了,但是一直没有时间来写博客,现在终于腾出一点时间来好好整理一下了1.观察网页结构首先需要登录豆瓣的网站:https://movie.douban.com/top250 ,通过审查元素,可以看到豆瓣的电影都是很整齐的放在li 里面,所以很方便我们爬取数据 通过展开第一个li ,可以看到我们需要的数据 2.观察网址的变化通过点击页面...原创 2018-04-12 17:53:54 · 1223 阅读 · 0 评论 -
python3之安装jupyter
为了学习数据可视化,安装jupyter的,但是由于网上的教程参差不齐,直接使用pip install jupyter 会出现各种报错,现在来介绍一下我自己的解决办法1.确认安装了pip在cmd中,直接输入pip --version 如果没有报错就说明安装了pip,前提是你已经将Python的环境变量配置好了.如果没有配置好,可以直接找度娘2.安装ipython直接使用pip命令...原创 2018-04-14 13:28:03 · 23678 阅读 · 2 评论 -
Python3之安装charts模块
在数据可视化的过程中必不可少的当然是将数据转化为图表啦,所以下面将介绍charts 模块的安装1.安装charts直接使用pip install charts 安装完成之后,可以在Python交互环境中输入 import charts 如果没有报错,那就可以直接使用了,当然报错了,你就需要花点时间来实践一下下面的步骤了2.报错解决办法在Python中输入下面的...原创 2018-04-17 12:50:00 · 3111 阅读 · 2 评论 -
CSV文件导入MongoDB
在爬数据的过程中,需要将爬取的数据存起来,方便以后的分析,但是由于是直接保存为CSV格式,并且Robomongo中没有直接导入的便捷方式,这里将教大家如何导入文件到数据库1.进入mongodb安装目录如果没有配置系统环境的话,就需要进入到安装目录才能进行下面的步骤,如果已经配置好,可以直接输入下面的命令2.输入指令 mongoimport -d doubantop250 -c ...原创 2018-04-18 17:38:55 · 6213 阅读 · 0 评论 -
scrapy爬取可用的代理ip
在爬虫之路上,面对反爬虫措施,我们该怎样解决呢,当然,正所谓”你有反爬策略,我也有过墙梯”,所以下面将使用scrapy来爬取免费代理ip,让我们从此不在害怕IP被封了.由于免费代理比较多,这里就以西刺代理为例 相关的代码已经上传到GitHub GitHub地址 : https://github.com/stormdony/scarpydemo,里面有一些scrapy的demo,欢迎fork和s...原创 2018-04-21 21:10:50 · 2467 阅读 · 5 评论 -
优信二手车数据可视化
之前使用scrapy抓取了优信二手车的数据,经过这几天的努力,终于把这些数据进行了清洗,并用echarts进行了可视化处理1.观察数据可以看到由于抓取的时候没有进行处理,所以整个标题都拿了下来,并且价格也包含了文字,所以需要对这些进行处理2.修改数据通过观察发现,可以通过以空格为分隔符,进行截取,这里只取出前面的第一部分,即:‘宝马’二字,并通过MongoDB的update方法...原创 2018-04-28 13:59:56 · 4743 阅读 · 0 评论 -
爬取豆瓣短评之《后来的我们》-------"后来的我们没有故事"
昨天《后来的我们》上映了,相信大家有点小期待吧。毕竟,影片的主题曲《我们》,早就虐哭了不少人。电影能否跟歌曲一样深入人心?怀着这样的一种心情,下面就来看一下它的影评如何吧。1.抓数据通过试探知道:豆瓣影评设置权限,没有登陆的话,只能够看到前面的几十条短评,并且登录的时候需要输入验证码。所以考虑使用selenium来获取数据。 登录时需要的验证码,通过保存图片,然后手动输入 所以...原创 2018-04-29 15:52:31 · 4540 阅读 · 3 评论 -
头脑王者辅助工具
自从微信开放了小程序制作游戏的权限以来,各种小程序扑面而来。有人预言,下一个风口将会是小程序。所以说,能不能“一夜暴富”,就看你能不能站在风口了; 当然,这里不是教大家制作小程序的,只是简单的弄了一个头脑王者的答题辅助工具,让大家快速上王者,褥一点羊毛罢了代码已经上传到GitHub:https://github.com/stormdony/python_demo 有兴趣可以下载玩一玩...原创 2018-05-07 16:49:08 · 3267 阅读 · 7 评论 -
用MyQR制作专属动态二维码
最近在逛GitHub时,发现一个简单又好玩的库—QR-Code。今天就用这个库来做一点小东西。这个库是用来生成艺术二维码(GIF动态二维码、图片二维码)的。目前这个库已经有3k+ star了,有兴趣可以扫描下方的二维码去GitHub看一下:https://github.com/sylnsfar/qrcode 安装myqr直接使用pip安装 pip install myqr稍...原创 2018-06-04 22:38:56 · 31499 阅读 · 18 评论 -
python数据可视化—00后高考数据大展览
从昨天开始,00后大军已经就开始高考了,在网络上对这次高考的报道很多,很多都关注了今年的考生数据,并且用炫酷的图表展示。看着是不是有点小嫉妒,为什么图表还可以做得这么漂亮???是不是也想自己动手做一张???其实这些图表都可以用python制作出来的数据可视化的产物。答案当然是可以的啦准备工作库chartspycharts数据直接从百度上收集常见类经常见到或者使用的图...原创 2018-06-08 11:46:16 · 2606 阅读 · 3 评论 -
python爬取历年高考分数线——预测2018年高考分数线
高考已经结束了,相信绝大部分同学都在放松自己了,毕竟压抑了这么久。现在虽然距离高考放榜还有一段时间,可能有一些同学已经迫不及待地想知道自己考的怎样。因此,现在就来爬取高考网上的近几年高考分数线,看一下近几年分数线的变化趋势,从而心里面有个底,这样才能够更加放松的去嗨皮。使用的工具库beautifulsoupmongodbecharts总体思路在高考网上,可以查看各省的分数线...原创 2018-06-10 16:10:13 · 13067 阅读 · 25 评论 -
用Python爬取网易新闻
很多人可能每天都要浏览新闻,但是每一天都需要刷很多的新闻客户端。今天就用Python大法来解决你的烦恼,让你一次看个够。。。基本思路爬取新闻的方法有很多,可以通过解析网页,也可以利用API爬取。今天就正式一点,利用网易的新闻API接口来爬取数据。通过访问接口,解析返回来的数据,保存你关心想要的信息。API:http://c.m.163.com/nc/article/headline...原创 2018-07-16 22:18:18 · 4491 阅读 · 0 评论 -
使用PIL库将图片转换为素描
先来预览一下效果↓ ↓ ↓ 在写代码前先介绍几个概念,理解了这几个概念才能更好的理解代码1.图像深度值: 图像深度是指存储每个像素所用的位数,也用于量度图像的色彩分辨率。 2.图像梯度: 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。 图像梯度...原创 2018-08-20 13:54:17 · 1680 阅读 · 0 评论 -
python web框架介绍
Python作为胶水语言,在很多方面有着显著的贡献。同时Python有很多的发展方向,比如:爬虫、数据分析、自动化测试、人工智能、运维还有web开发等。 可能很多人都是因为爬虫或者数据分析才入手Python的,但是今天的重点不是这两个方向,今天来唠叨一下Python的web。在国内,很多知名网站,像知乎、网易、豆瓣都是由Python开发的;国外有Quora(社交问答网站)、Google、Pi...转载 2018-08-20 14:03:33 · 459 阅读 · 0 评论 -
利用python爬取小说
很久没有写过爬虫了,今天刚好有同学问我能不能帮忙把一部小说爬下来,因为网上搜索下载小说,大部分都是一些虚假的链接,或需要注册网站的账号;并且直接在网站上看的话,广告也是满天飞。为了让他更加纯粹的享受小说,也为了炫耀一下Python大法。于是就诞生了这篇文章步骤观察网站结构获取章节链接获取详细文本网站分析在网上搜了一个看小说的网站:笔趣阁。搜索小说之后看到这样的网页:...原创 2018-08-20 14:08:59 · 965 阅读 · 0 评论 -
Numpy基础(四)
Numpy数组操作 : 通过连接或切分已有数组来创建新数组连接数组把多个数组整合在一起形成国内一个包含这些数组的新数组。Numpy使用了栈这个概念,提供了几个运用栈概念的函数。例如,vstack()函数执行垂直入栈操作,把第二个数组作为行添加到第一个数组,数组朝垂直方向生长。相反,hstack()函数执行水平入栈操作,也就是说把第二个数组作为列添加到第一个数组In [2]: A = n...原创 2018-08-20 14:17:56 · 244 阅读 · 0 评论 -
爬虫利器-cURL转换
前言在爬虫的过程,经常需要为程序添加请求头,参数,cookie等信息,但是这些信息的添加都需要手动的去浏览器中找,然后一点一点的慢慢复制粘贴,这样效率就非常的低了。今天就分享一个网站,解决这些问题,让你脱离这些没有意义的劳动网站介绍网址: https://curl.trillworks.com从上图可以看到网站的教程,只要根据教程三步走,就可以快速的添加相应的请求信息示...原创 2018-09-06 11:59:07 · 4841 阅读 · 0 评论 -
Python or Java?Boss直聘告诉你该如何选择
前言“人生苦短,我用 Python”,Python 的经典 slogan 讲究争分夺秒,并且在 9月的TIOBE榜中拿下第 3 名宝座。 今天就试着在Boss直聘网站上爬取python和java的招聘信息,比较一下两个方向的发展钱景,为本科生的就业方向给一个小小的建议爬取在招聘网站上直接以”本科生”和”java”或”python”作为筛选条件,以广州为例 爬取招聘的大体信息...原创 2018-09-10 11:03:32 · 3844 阅读 · 1 评论 -
网易云歌词获取
前言在写博客的时候,想往文章里面插入音乐。虽然网易云有外链的功能提供,但是有一些网易云没有版权的音乐就不支持外链,所以想要得到这些没有版权的音乐,就需要另想办法了。刚好看到有一款插件可以得到这些歌曲,但是歌词的请求链接却一直都抓不到。无奈之下,只好向度娘求助了。搜索一番后,发现可以根据网易云歌曲的id,拼接请求歌词的链接,但是请求网页版返回的是json字符串类型的数据,有干扰信息。所以就想着...原创 2018-09-25 11:48:37 · 4743 阅读 · 1 评论