python 爬取百度贴吧的帖子
爬取指定贴吧或者某个帖子,生成json文件,并可以搜寻关键字内容或者发帖人
行者刘6
这个作者很懒,什么都没留下…
展开
-
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(十)
所有py文件已经讲解了,剩下的就是如何打包成exe了!scrapy打包成exe特别麻烦,而且很大,最后出来,居然有88m!!!而且不能打包成单个文件,只能一堆文件,下面是这次所需的文件:所需配置文件: scrapy(文件夹) /mime.types /VERSIONscrapy.cfgwordcloud (文件夹): /stopwords /...原创 2019-08-13 10:46:58 · 496 阅读 · 5 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(九)
对生成的帖子json文件,进行搜索,可以根据回帖内容关键字、或者回帖人 查找回帖内容,还可以依据回复内容,生成词云图tk界面,search.py''''''构造: toplevel:——notebook,2个页面: ----搜索回复内容(search_frame):---选择文件夹部分(dir...原创 2019-08-13 09:58:56 · 467 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(八)
运行爬虫后,记录爬取信息的文件:爬虫日志:所爬取保存的文件为:文件内的保存格式:原创 2019-08-13 09:49:42 · 259 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(七)
爬取单个帖子one_tiezi_spider.py'''这个是爬取 单个帖子的爬虫大概思路: 1.进入该帖子的第1页,获取帖子的初始信息(标题、发帖人、tid、总页数)等 2.根据总页数,判断输入的起始页-结束页 是否合理,进行修改 3.对[页数范围]进行分割,做到每100页为一个文件,每10页为一个item,组成request_lis...原创 2019-08-13 09:06:38 · 323 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(五)
scrapy项目里的各个模块:settings.pyBOT_NAME = 'tieba'SPIDER_MODULES = ['tieba.spiders']NEWSPIDER_MODULE = 'tieba.spiders'RETRY_ENABLED = FalseDOWNLOAD_DELAY = 0.5COOKIES_ENABLED = TrueDEFAULT_R...原创 2019-08-11 21:00:57 · 282 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(四)
接着直接进入主题,scrapy的启动文件begin.py:'''本scrapy的运行顺序:》初始的begin.py ,打开tk界面,输入各个参数,保存在config文件,点击运行》先进入pipeleines.py,调用open_spider,获取config里的数据,设定spider各个参数》回到spider.py,正式开始运行parse》程序结束时,再调用pipelein...原创 2019-08-11 20:53:44 · 370 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(三)
这次是显示爬取进度的tk界面:'''显示爬取帖子进度,流程是: 在spider里,每爬取完一段(每个帖子,或者每10页),返回item时,就把帖子标题、发帖人等信息写入info.json 然后tree会不停的打开这个文件,当spider更新数据时,就添加到tree里 在循环里,每15秒检查scrapy是否还在运行,一旦不在了,就终止循环...原创 2019-08-11 20:49:10 · 360 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(二)
先从tkinter的界面讲解吧!!!初始界面:'''tk界面的创建步骤: 第一步:创建最初始的[选择]界面,然后按下按钮,选择 帖子/贴吧 第二步:创建对应界面,布局好“贴吧名、页数范围、保存路径、(tid)” ————需要提及的是,1.新版ttk的scale滑动条很蛋疼,值都是小数不能设定,得手动绑定函数...原创 2019-08-11 20:46:03 · 426 阅读 · 0 评论 -
python tkinter界面 多进程启动scrapy爬取百度贴吧的回复,显示爬取进度,并可以搜索回帖人,指定时间生成词云图,用pyinstaller打包成exe(一)
效果图:简介以及构造:介绍:本项目是tkinter写出界面,基于scrapy爬虫,爬取指定贴吧/某个帖子,能通过treeview显示爬取进度,并且可以搜索关键字、发帖人等爬取指定贴吧思路:1.进入该贴吧第N页-第M页,获取所有帖子的初始信息2.分别进入每个帖子,先爬取楼层回复3.根据tid(帖子id)、pid(楼层id),爬取各自的楼内...原创 2019-08-10 16:01:06 · 852 阅读 · 0 评论