爬虫匹不到数据的坑

初级爬虫小结

网络爬虫的概念:
(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫爬取数据得原则:
模拟浏览器进行访问网页获取数据,只要你伪装成浏览器足够像,就可以达到防反爬的目的。

正则 lxml bs4区别:
正则表达式和Lxml的运行时间都比较快,BS4较慢。所以当数据量较大时,推荐使用Lxml。
不过,lxml的路径兼容性似乎较弱,尝试使用“//”时出错的可能性较大,最好列出完整路径,例如:div[2]/span[1]/i/text()。
爬取不到数据简单分析
1.方法不对,语法错误
2.实验要匹配的标签的属性,有时标签的属性它并不是需要写全,(多个属性)
3.用xpath匹配,有时通过父节点并不能匹配到的想要的内容,但是可以通过子节点来查找,进而利用兄弟节点的查找方法匹配其他内容。
4.有时我们感觉方法都对,但就是匹配不到,写一个Html文档,看内容是否是被注释掉了。
感想:
代码不多,坑多。多分析,多研究,坑填的多的便成了路。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值