经过一段机器学习之后,发现实在是太枯燥了,为了增添一些趣味性以及熟练爬虫,在之后会不定时的爬取一些网站
旨在熟悉网页结构--尤其是HTML的元素,ajax存储,json;熟练使用pyspider,scrapy两大框架;掌握基本的requests库,re正则匹配,urllib库,Beautifulsoup,css,pyquery 选择器的使用,pandas库的辅助;mongodb,csv,xlsx的存储,redis分布式爬虫;简单的反爬技巧
本篇作为实战的第一篇,爬取了链家二手房的信息,一些思路借鉴了网上的框架结构,并非纯粹原创,特此声明,站在巨人的肩膀上眺望
该篇我自己实践学习到的、需要注意的内容如下
本项目实例的知识点有
1. format 和 迭代yield 的使用
2. 三大解析工具的使用 XPath, beautifulsoup,pquery
3.关于变签选取,beautifulsoup 的select 方法返回的是列表,需要格外注意, 且用select 来选择class 标签的时候,只取 空格前边,class 等号后边的,比如62行
4.如何将字典信息转化为pd.DataFrame
比如,dict={'a':'1','b':'2','c':'3'}
直接使用data=pd.DataFrame(dict)则会报错:ValueError: If using all scalar values, you must pass an index