python
文章平均质量分 73
DonLex
这个作者很懒,什么都没留下…
展开
-
python3之安装jupyter
为了学习数据可视化,安装jupyter的,但是由于网上的教程参差不齐,直接使用pip install jupyter 会出现各种报错,现在来介绍一下我自己的解决办法1.确认安装了pip在cmd中,直接输入pip --version 如果没有报错就说明安装了pip,前提是你已经将Python的环境变量配置好了.如果没有配置好,可以直接找度娘2.安装ipython直接使用pip命令...原创 2018-04-14 13:28:03 · 23674 阅读 · 2 评论 -
使用PIL库将图片转换为素描
先来预览一下效果↓ ↓ ↓ 在写代码前先介绍几个概念,理解了这几个概念才能更好的理解代码1.图像深度值: 图像深度是指存储每个像素所用的位数,也用于量度图像的色彩分辨率。 2.图像梯度: 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。 图像梯度...原创 2018-08-20 13:54:17 · 1679 阅读 · 0 评论 -
python web框架介绍
Python作为胶水语言,在很多方面有着显著的贡献。同时Python有很多的发展方向,比如:爬虫、数据分析、自动化测试、人工智能、运维还有web开发等。 可能很多人都是因为爬虫或者数据分析才入手Python的,但是今天的重点不是这两个方向,今天来唠叨一下Python的web。在国内,很多知名网站,像知乎、网易、豆瓣都是由Python开发的;国外有Quora(社交问答网站)、Google、Pi...转载 2018-08-20 14:03:33 · 459 阅读 · 0 评论 -
利用python爬取小说
很久没有写过爬虫了,今天刚好有同学问我能不能帮忙把一部小说爬下来,因为网上搜索下载小说,大部分都是一些虚假的链接,或需要注册网站的账号;并且直接在网站上看的话,广告也是满天飞。为了让他更加纯粹的享受小说,也为了炫耀一下Python大法。于是就诞生了这篇文章步骤观察网站结构获取章节链接获取详细文本网站分析在网上搜了一个看小说的网站:笔趣阁。搜索小说之后看到这样的网页:...原创 2018-08-20 14:08:59 · 964 阅读 · 0 评论 -
Numpy基础(四)
Numpy数组操作 : 通过连接或切分已有数组来创建新数组连接数组把多个数组整合在一起形成国内一个包含这些数组的新数组。Numpy使用了栈这个概念,提供了几个运用栈概念的函数。例如,vstack()函数执行垂直入栈操作,把第二个数组作为行添加到第一个数组,数组朝垂直方向生长。相反,hstack()函数执行水平入栈操作,也就是说把第二个数组作为列添加到第一个数组In [2]: A = n...原创 2018-08-20 14:17:56 · 244 阅读 · 0 评论 -
爬虫利器-cURL转换
前言在爬虫的过程,经常需要为程序添加请求头,参数,cookie等信息,但是这些信息的添加都需要手动的去浏览器中找,然后一点一点的慢慢复制粘贴,这样效率就非常的低了。今天就分享一个网站,解决这些问题,让你脱离这些没有意义的劳动网站介绍网址: https://curl.trillworks.com从上图可以看到网站的教程,只要根据教程三步走,就可以快速的添加相应的请求信息示...原创 2018-09-06 11:59:07 · 4841 阅读 · 0 评论 -
Python or Java?Boss直聘告诉你该如何选择
前言“人生苦短,我用 Python”,Python 的经典 slogan 讲究争分夺秒,并且在 9月的TIOBE榜中拿下第 3 名宝座。 今天就试着在Boss直聘网站上爬取python和java的招聘信息,比较一下两个方向的发展钱景,为本科生的就业方向给一个小小的建议爬取在招聘网站上直接以”本科生”和”java”或”python”作为筛选条件,以广州为例 爬取招聘的大体信息...原创 2018-09-10 11:03:32 · 3841 阅读 · 1 评论 -
网易云歌词获取
前言在写博客的时候,想往文章里面插入音乐。虽然网易云有外链的功能提供,但是有一些网易云没有版权的音乐就不支持外链,所以想要得到这些没有版权的音乐,就需要另想办法了。刚好看到有一款插件可以得到这些歌曲,但是歌词的请求链接却一直都抓不到。无奈之下,只好向度娘求助了。搜索一番后,发现可以根据网易云歌曲的id,拼接请求歌词的链接,但是请求网页版返回的是json字符串类型的数据,有干扰信息。所以就想着...原创 2018-09-25 11:48:37 · 4732 阅读 · 1 评论 -
通过猎聘的招聘信息找出学习线路规划
文章首发于微信公众号:Python绿洲。如需转载,请联系该公众号前言之前发过一篇文章《 Python or Java?Boss直聘告诉你该如何选择》, 主要是这两种语言方向在应聘岗位上的比较,没有涉及具体的岗位要求的分析。前两天,刚好看到网上的一些学习路线图,又对比了招聘网站上的要求,发现这两者其实差不多。所以就用爬虫爬取了猎聘网上的岗位信息,对这些招聘信息进行处理,从中找出需要掌握的一...原创 2018-12-10 12:33:12 · 534 阅读 · 0 评论 -
Python包管理利器——pipenv
pipenv是requests库作者Kenneth Reitz开发的,它结合了pip及virtualenv的功能和优点,其目的是替代virtualenv和pyenv,将pip及virtualenv的功能集于一身。尽管 pip 可以安装 Python 包,但仍推荐使用 pipenv,因为它是一种更高级的工具,可简化依赖关系管理的常见使用情况。如果还没有使用过pipenv的童鞋,赶紧试试吧!pip...转载 2018-12-15 22:12:12 · 311 阅读 · 0 评论 -
爬虫的风险
文章首发于慕课网爬虫定义网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。——维基百科万物都有两面性。而爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是...原创 2018-12-23 12:44:23 · 5844 阅读 · 0 评论 -
爬取猫眼评论,分析《阿丽塔:战斗天使》
文章首发于慕课网日本漫画《铳梦》改编电影《阿丽塔:战斗天使(Alita: Battle Angel)》于2019年2月22日在中国大陆上映了。近几天,网上对于这部电影的分析评论也很多,今天通过猫眼电影上的评论粗浅地看一下大众对这部科幻电影的评价。工具库jiebapyechartswordcloudmatplotlib分析网站通过在浏览器模拟移动端请求评论的数据,可以看到随...原创 2019-02-24 22:03:25 · 978 阅读 · 0 评论 -
在爬100万数据的时候,我发现了爬虫的进阶之路
文章首发于慕课网,更多内容请访问个人站点:https://www.donlex.cn之前的文章使用的都是一些基础 Python 的知识,特别是在做一些小的项目的时候,运用好那些基础知识就完全够用了。所以如果没有用到新的知识或没有接触到新的知识的时候,我就没有写出来,这就是这么长时间没有发文的原因。并且,我感觉我的爬虫技术一直都处在初级阶段,原地踏步,没有一点进步,也就造成了“没话可说”的尴尬...原创 2019-04-20 10:28:26 · 1179 阅读 · 0 评论 -
突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制
文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn上次的文章《在爬100万数据的时候,我发现了爬虫的进阶之路》 ,有“怂恿”大家伙去突破淘宝的登录反爬,不知道有没有试了的。反正我是试了,也找到了三种方法。在这里分享一下账号密码登录(有滑块)微博第三方账号登录(无滑块)扫码登录上面都是使用 Selenium 进行模拟登录的,这样就可以不用手动添加各种...原创 2019-04-25 10:46:00 · 23880 阅读 · 21 评论 -
用Python爬取网易新闻
很多人可能每天都要浏览新闻,但是每一天都需要刷很多的新闻客户端。今天就用Python大法来解决你的烦恼,让你一次看个够。。。基本思路爬取新闻的方法有很多,可以通过解析网页,也可以利用API爬取。今天就正式一点,利用网易的新闻API接口来爬取数据。通过访问接口,解析返回来的数据,保存你关心想要的信息。API:http://c.m.163.com/nc/article/headline...原创 2018-07-16 22:18:18 · 4489 阅读 · 0 评论 -
python爬取历年高考分数线——预测2018年高考分数线
高考已经结束了,相信绝大部分同学都在放松自己了,毕竟压抑了这么久。现在虽然距离高考放榜还有一段时间,可能有一些同学已经迫不及待地想知道自己考的怎样。因此,现在就来爬取高考网上的近几年高考分数线,看一下近几年分数线的变化趋势,从而心里面有个底,这样才能够更加放松的去嗨皮。使用的工具库beautifulsoupmongodbecharts总体思路在高考网上,可以查看各省的分数线...原创 2018-06-10 16:10:13 · 13066 阅读 · 25 评论 -
Python3之安装charts模块
在数据可视化的过程中必不可少的当然是将数据转化为图表啦,所以下面将介绍charts 模块的安装1.安装charts直接使用pip install charts 安装完成之后,可以在Python交互环境中输入 import charts 如果没有报错,那就可以直接使用了,当然报错了,你就需要花点时间来实践一下下面的步骤了2.报错解决办法在Python中输入下面的...原创 2018-04-17 12:50:00 · 3111 阅读 · 2 评论 -
爬虫入门Demo(一)---抓取博客的文章标题和链接
现在Python非常的热门,之前在一个公众号的启发下,萌发了学习爬虫的兴趣,之前自学过Python的一点基础,所以经过几天的折腾终于弄出了一个小小的案例—用BeautifulSoup爬取了自己博客一些信息,有点小兴奋,想分享一下内心的小成就,希望大神不要笑话1.首先需要安装好BeautifulSoup如果你还没有安装好BeautifulSoup,参考这个博客点击跳转2.观察信息位置...原创 2018-04-05 20:23:29 · 5495 阅读 · 8 评论 -
爬虫入门Demo(二)---抓取豆瓣电影Top205
本来前几天就把豆瓣Top250的电影抓取下来了,但是一直没有时间来写博客,现在终于腾出一点时间来好好整理一下了1.观察网页结构首先需要登录豆瓣的网站:https://movie.douban.com/top250 ,通过审查元素,可以看到豆瓣的电影都是很整齐的放在li 里面,所以很方便我们爬取数据 通过展开第一个li ,可以看到我们需要的数据 2.观察网址的变化通过点击页面...原创 2018-04-12 17:53:54 · 1223 阅读 · 0 评论 -
Window下安装lxml
今天在看BeautifulSoup的文档的时候,想安装lxml解析器,但是直接用pip install lxml的时候却报错,最后在度娘那里找到了完美的解决办法.靠人品的安装步骤:如果你已经安装了pip,那么可以直接试一下用pip install lxml看行不行,如果没有报错的话,那么恭喜你,下面的内容你可以不看了,如果报错的话,可以参考下面的内容通过lxml的.whl文件来进行...原创 2018-04-06 13:43:22 · 1084 阅读 · 3 评论 -
CSV文件导入MongoDB
在爬数据的过程中,需要将爬取的数据存起来,方便以后的分析,但是由于是直接保存为CSV格式,并且Robomongo中没有直接导入的便捷方式,这里将教大家如何导入文件到数据库1.进入mongodb安装目录如果没有配置系统环境的话,就需要进入到安装目录才能进行下面的步骤,如果已经配置好,可以直接输入下面的命令2.输入指令 mongoimport -d doubantop250 -c ...原创 2018-04-18 17:38:55 · 6213 阅读 · 0 评论 -
win10下安装MongoDB
1.先去官网下载对应的版本点击MongoDB官网下载 2.安装下载完后是一个msi格式的文件,如下图 点击进行安装,安装比较简单,类似于普通QQ软件,中间主要是选择“Custom”自定义 安装路径修改下:D:\mongodb ,然后不断“下一步”,安装至结束。 (注意:在选完自定义安装位置后的下一步记得要把左下角的√取消,否则会下载图形化界面,如果你网速慢的话,会等很久...原创 2018-04-06 22:19:56 · 11340 阅读 · 6 评论 -
scrapy爬取可用的代理ip
在爬虫之路上,面对反爬虫措施,我们该怎样解决呢,当然,正所谓”你有反爬策略,我也有过墙梯”,所以下面将使用scrapy来爬取免费代理ip,让我们从此不在害怕IP被封了.由于免费代理比较多,这里就以西刺代理为例 相关的代码已经上传到GitHub GitHub地址 : https://github.com/stormdony/scarpydemo,里面有一些scrapy的demo,欢迎fork和s...原创 2018-04-21 21:10:50 · 2467 阅读 · 5 评论 -
优信二手车数据可视化
之前使用scrapy抓取了优信二手车的数据,经过这几天的努力,终于把这些数据进行了清洗,并用echarts进行了可视化处理1.观察数据可以看到由于抓取的时候没有进行处理,所以整个标题都拿了下来,并且价格也包含了文字,所以需要对这些进行处理2.修改数据通过观察发现,可以通过以空格为分隔符,进行截取,这里只取出前面的第一部分,即:‘宝马’二字,并通过MongoDB的update方法...原创 2018-04-28 13:59:56 · 4743 阅读 · 0 评论 -
爬取豆瓣短评之《后来的我们》-------"后来的我们没有故事"
昨天《后来的我们》上映了,相信大家有点小期待吧。毕竟,影片的主题曲《我们》,早就虐哭了不少人。电影能否跟歌曲一样深入人心?怀着这样的一种心情,下面就来看一下它的影评如何吧。1.抓数据通过试探知道:豆瓣影评设置权限,没有登陆的话,只能够看到前面的几十条短评,并且登录的时候需要输入验证码。所以考虑使用selenium来获取数据。 登录时需要的验证码,通过保存图片,然后手动输入 所以...原创 2018-04-29 15:52:31 · 4540 阅读 · 3 评论 -
头脑王者辅助工具
自从微信开放了小程序制作游戏的权限以来,各种小程序扑面而来。有人预言,下一个风口将会是小程序。所以说,能不能“一夜暴富”,就看你能不能站在风口了; 当然,这里不是教大家制作小程序的,只是简单的弄了一个头脑王者的答题辅助工具,让大家快速上王者,褥一点羊毛罢了代码已经上传到GitHub:https://github.com/stormdony/python_demo 有兴趣可以下载玩一玩...原创 2018-05-07 16:49:08 · 3266 阅读 · 7 评论 -
用MyQR制作专属动态二维码
最近在逛GitHub时,发现一个简单又好玩的库—QR-Code。今天就用这个库来做一点小东西。这个库是用来生成艺术二维码(GIF动态二维码、图片二维码)的。目前这个库已经有3k+ star了,有兴趣可以扫描下方的二维码去GitHub看一下:https://github.com/sylnsfar/qrcode 安装myqr直接使用pip安装 pip install myqr稍...原创 2018-06-04 22:38:56 · 31498 阅读 · 18 评论 -
python数据可视化—00后高考数据大展览
从昨天开始,00后大军已经就开始高考了,在网络上对这次高考的报道很多,很多都关注了今年的考生数据,并且用炫酷的图表展示。看着是不是有点小嫉妒,为什么图表还可以做得这么漂亮???是不是也想自己动手做一张???其实这些图表都可以用python制作出来的数据可视化的产物。答案当然是可以的啦准备工作库chartspycharts数据直接从百度上收集常见类经常见到或者使用的图...原创 2018-06-08 11:46:16 · 2606 阅读 · 3 评论 -
微信自动回复机器人
首发于慕课网手记通过itchat获取微信的相关消息,将微信消息传输到青云客机器人接口,获取机器人的返回消息。将返回消息返回给微信消息的发送人。以此实现将微信个人号变身为聊天机器人。因为图灵机器人现在需要实名认证,并每天免费数量只有100条,感觉非常麻烦,所以找了一个免费的接口-青云客,虽然这个智能程度没有图灵机器人那么高,但是也足够应付基本的消息了,不过有时候有点智障,谨慎使用哈。以下...原创 2019-07-04 22:04:56 · 3194 阅读 · 0 评论