python学习
VerdureChen
这个作者很懒,什么都没留下…
展开
-
使用pyinstaller对scrapy+selenium+pyqt5项目进行打包常见问题总结以及主要过程记录
前一段时间构建了一个使用scrapy+selenium+pyqt5的爬虫可视化界面,用于爬取知乎、百度百家号以及新浪新闻,在界面调试无误后,就需要使用pyinstaller进行打包,将项目变成更容易移植的exe文件。这篇博文主要用于记录打包的主要过程以及问题的解决方法。1. pyinstaller的安装一般来说,使用常用的pip命令即可安装,但我在安装时遇到了如下问题:Installing build dependencies ... errorERROR: Command errored原创 2020-08-12 23:34:09 · 2435 阅读 · 0 评论 -
python scrapy+mongodb爬取百度百家号与新浪新闻
此前我爬取了zhihu的相关问答,为了更好地收集信息,原本的打算是爬取百度资讯的内容,但在对页面进行分析后发现,在百度资讯的搜索结果中,百家号的页面格式比较统一,便于爬取;而其他媒体网站的页面格式比较繁杂,并且在百度特定关键词搜索结果中,像腾讯新闻、新浪新闻等比较具有可信度,并且格式较为统一的页面,数量其实非常少,所以从百度资讯的媒体网站爬取数据是不太现实的。此时我发现,新浪具有新闻的检索功能,来源较为广泛,并且新浪作为转载网站,为页面提供了较为统一清晰的格式。所以最终我决定爬取百度百家号+新浪新闻信息。原创 2020-07-29 16:21:02 · 1523 阅读 · 1 评论 -
在scrapy通过配置文件进行自定义参数的爬虫并行
在同个项目下写了多个爬虫之后,如果我们需要同时并行运行多个爬虫,需要怎么做呢?关于这个,我找到了两篇可以解决问题的博文,主要思路是在爬虫目录下新建commands目录,重新定义Command函数,通过这个思路,我们可以做到的是重新定义启动爬虫时的命令行参数,收集我们需要传入内部的参数,并且再通过Command函数解析,并传递给每个运行的爬虫。其中一篇博文解释的思路比较清晰,耐心读就可以读懂:https://blog.csdn.net/qq_38282706/article/details/80991原创 2020-07-29 11:08:28 · 654 阅读 · 0 评论 -
scrapy+selenium按照某一主题爬取zhihu相关内容
紧接前一篇分析zhihu反爬方法的博文,经过好几天的折腾,最终我还是选择通过百度搜索相关的问题,直接对问题详情页进行解析。这样做的好处在于知乎问题详情页是可以使用selenium爬取的,不必与反爬斗智斗勇,也就不用担心万一很快进一步升级反爬策略后爬虫失效,不足之处在于爬取速度肯定比不上requests请求,不过对我来说影响不是很大,所以也算找到了一种可行的方法啦。今天这篇文章将详细记录一下scrapy+selenium+mongodb爬取zhihu某主题问题与答案的方法。爬虫的总体流程很简单:使用百原创 2020-07-18 12:35:46 · 675 阅读 · 0 评论 -
爬取zhi hu的小记录
在上篇制定了爬虫计划之后,我原本打算从zhi hu爬虫入手,因为同其他需要对多个目标站进行分析的任务相比,zhi hu的问答格式很统一,但后来发现原来自己跳了个大坑QQ。坑1:使用requests对zhi hu的搜索、问题页进行爬取因为本次需要根据关键词对内容进行爬取,所以很容易想到对zhi hu的搜索页进行爬取。需要说明的是,从zhi hu的搜索页面和问题页面进行访问不是必须要登录的,所以登录这步可以绕过。然而,zhi hu的问题页有一个绕不开的问题,那就是request的回答请求头中存在加密原创 2020-07-15 00:37:11 · 540 阅读 · 0 评论 -
关于python使用wordcloud生成繁体字词云的方法
今天我了解了一些关于python词云模块的用法,简单地实践了一下。安装比较顺利,还是老办法,pip install就可以安装好,但是时间比较长,因为可能同时安装了很多使用词云必须用到的包。然后就是动手实践的过程了。在执行到from wordcloud import WordCloud,ImageColorGenerator这句代码时,提示can not import name "WordCloud...原创 2018-02-18 20:34:31 · 874 阅读 · 0 评论 -
解决python中出现“str”object is not callable的记录
在今天的python编程中,编辑新代码之后,之前一部分已经运行过的代码出现了问题,显示的是“str”object is not callable的问题,在网上查阅资料之后发现,大多数情况是因为在前面定义了以str命名的变量,导致了覆盖.但是反反复复检查了好几遍,发现并没有定义相应的变量。挣扎了好久终于承认这个问题的出现并不是因为我粗心导致了bug,而是其他方面的问题。首先说一下,我的项目是关于自然...原创 2018-02-13 15:24:51 · 33885 阅读 · 1 评论 -
python爬虫实例备忘
从视频中学习到的爬虫爬取中国大学排名的步骤。代码框架:提取数据:将所有的td标签查询出来(find_all简写方法),并且存储成一个列表类型tds.最后将它格式化输出即可:视频中还对中英文混排的输出进行了优化。没有对齐的主要原因是程序默认用英文字符填充,我们需要改成用中文空格填充即可。原创 2017-08-31 15:12:17 · 289 阅读 · 0 评论 -
python爬虫备忘(3)
今天的视频介绍了bs4中的find_all方法。查找两个标签时,用列表。如果内容是true,那么返回所有标签。第二个参数用来查相应属性。其中也可以用到正则表达式。第三个参数是用来限制查找范围的,默认为true,否则只查找儿子节点,不会查找所有子孙节点。最后一个参数用来匹配标签之间纯文本的字符串。方法具有简写形式:原创 2017-08-31 14:30:26 · 238 阅读 · 0 评论 -
yield关键字作用
yeild每一次调用都返回当前计算值,并且在下一次调用时将继续沿着上次的记忆进行。原创 2017-09-17 14:52:08 · 446 阅读 · 0 评论 -
python爬虫备忘(5)
今天开始学习python爬虫的scrapy库,它是一个爬虫框架,用户通过配置可以对规模较大的网站进行爬取。它通过命令行的形式来进行调用。5+2结构:常见指令:建立一个目录:init和items不需用户编写。然后可以生成一个名为demo的爬虫文件。可以看到spider目录下生成了一个demo.py文件。name是爬虫的名原创 2017-09-17 13:41:13 · 290 阅读 · 0 评论 -
python爬虫备忘(2)
今天学习beautifulsoup的安装与使用。首先在命令行运行 pip install beautifulsoup4 即可完成安装。检测库是否安装成功。原创 2017-08-30 11:10:50 · 324 阅读 · 0 评论 -
python爬虫淘宝比价
首先是源码import reimport requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: ret原创 2017-09-07 18:51:23 · 2703 阅读 · 1 评论 -
python爬虫备忘(4)
今天主要学习的是正则表达式的相关知识.原创 2017-09-07 08:52:10 · 236 阅读 · 0 评论 -
python爬虫备忘
robots协议地址图片爬取ip地址查询:转载 2017-08-24 14:21:14 · 204 阅读 · 0 评论 -
python学习备忘
函数:关键字参数关键字参数和函数调用关系紧密,函数调用使用关键字参数来确定传入的参数值。使用关键字参数允许函数调用时参数的顺序与声明时不一致,因为 Python 解释器能够用参数名匹配参数值。以下实例在函数 printme() 调用时使用参数名:#!/usr/bin/python3 #可写函数说明def printinfo( name, age )转载 2017-08-25 10:22:51 · 338 阅读 · 0 评论