链家网页爬虫_爬虫实战1-----链家二手房信息爬取

经过一段机器学习之后,发现实在是太枯燥了,为了增添一些趣味性以及熟练爬虫,在之后会不定时的爬取一些网站

旨在熟悉网页结构--尤其是HTML的元素,ajax存储,json;熟练使用pyspider,scrapy两大框架;掌握基本的requests库,re正则匹配,urllib库,Beautifulsoup,css,pyquery 选择器的使用,pandas库的辅助;mongodb,csv,xlsx的存储,redis分布式爬虫;简单的反爬技巧

本篇作为实战的第一篇,爬取了链家二手房的信息,一些思路借鉴了网上的框架结构,并非纯粹原创,特此声明,站在巨人的肩膀上眺望

该篇我自己实践学习到的、需要注意的内容如下

本项目实例的知识点有

1. format 和 迭代yield 的使用

2. 三大解析工具的使用 XPath, beautifulsoup,pquery

3.关于变签选取,beautifulsoup 的select 方法返回的是列表,需要格外注意, 且用select 来选择class 标签的时候,只取 空格前边,class 等号后边的,比如62行

4.如何将字典信息转化为pd.DataFrame

比如,dict={'a':'1','b':'2','c':'3'}

直接使用data=pd.DataFrame(dict)则会报错:ValueError: If using all scalar values, you must pass an index

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值