python爬虫
文章平均质量分 85
BoogieAres
程序猿 && Popper
展开
-
关于《Python网络数据采集》上的一些无法运行的代码记录
最近自学爬虫的过程中,发现了这本书上个别会引发运行错误的代码,解决后,进行记录。一,第五章第一节媒体文件中的一段代码书上原代码为:def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): path = adsoluteUrl.replace("www.","") path = path.repla...原创 2018-03-15 20:27:32 · 342 阅读 · 0 评论 -
《python网络数据采集》第七章关于2gram模型数据标准化的代码补齐记录
本书第七章,有一段关于ngram模型的介绍,作者用2gram来详细讲解模型。在数据标准化模块里,作者为了对数据的去重和频率,引入了collections库的OrderedDict函数。其功能是将指定的字典依照value值进行排序。不过作者并未写出完整代码,所以单纯补上那一段函数调用代码是没用的,要补填代码。 怕忘,就选择了即时记录。遇到,解决了就记录下来,并且贴上我的理解。完整代码:...原创 2018-03-16 19:30:31 · 726 阅读 · 1 评论 -
python+selenium+headless chrome完成对信息的采集
写完记录一下,看着《python网络数据采集》写的,踩了一堆坑……索幸踩着踩着习惯了……思路一开始的idea是通过输入番号,将番号输入指定搜索引擎,返回搜索引擎搜索到的第一页十个信息,翻页处理这里没有加(主要是个人觉得十个信息也够了)。功能完整的包括了搜索返回信息并且将信息,以搜索信息为名的txt文件存储到当前目录(相对路径)。直接上代码(相关网址已经用URL代替,这个还是不要太直...原创 2018-03-23 21:33:04 · 1261 阅读 · 0 评论 -
python数据处理 json字符串转换成字典
今天工作的时候遇到了这个问题,花了一个小时才解决这个问题,回到家记录一下。 有时候,爬虫爬取的数据是json字符串,大概模式如下:'[{"id": 1,"num": 1},{"id": 2,"num": 2},{"id": 3,"num": 3}]'处理这类json字符串时候,需要用到json库的json.loads()函数。类似代码如下:res = str(string,原创 2018-04-27 20:28:00 · 7352 阅读 · 1 评论 -
scrapy入门级使用
工作果然都是用的scrapy进行采集数据……今天工作上学习了一下,下班回到家的记录。 先理解scrapy的概念流程(功能流程图自寻)。Scrapy框架功能流程:scrapy框架先是将spider里的目标网站信息入栈scheduler,然后对网站进行requests后,将response输入Downloader,Downloader将response返回到spider并按照spider...原创 2018-04-27 20:57:57 · 192 阅读 · 0 评论