自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_42019366的博客

数据采集

关注

关注数：文章数：1 文章阅读量：1369 文章收藏量：10

作者: 时光入海流Zz

这个作者很懒，什么都没留下…

展开

Python爬虫总结（CSS，Xpath，JsonLoad；静态网页，JS加载，Ajax异步请求）

前言随着人类社会的高速发展，数据对各行各业的重要性，愈加重要。爬虫，也称为数据采集器，是指通过程序设计，机械化地对网络上的数据，进行批量爬取，以代替低效的人工获取信息的手段。 1. 道德法律问题爬虫目前在法律上尚属灰色地段，但爬别的网站用于自己的商业化用途也可能存在着法律风险。非法抓取使用“新浪微博”用户信息被判赔200万元，这是国内的一条因爬虫被判败诉的新闻。所以各商业公司还是悠着点，特别是涉及隐私数据。大型的网站一般都会有robot.txt，这算是与爬虫者的一个协议。只要在robot.txt允许.

原创 2020-05-22 22:12:10 · 1369 阅读 · 0 评论