![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spider
文章平均质量分 83
ttts27
这个作者很懒,什么都没留下…
展开
-
requests
目录今日总结一、认识爬虫1. 爬虫基本步骤2. 获取网页数据二、Request1. 如何获取网页内容2. 获取网页内容类型3. 添加客户端信息三、RequestJson今日总结一、认识爬虫1. 爬虫基本步骤爬虫就是通过代码获取别人网站上的数据获取网页数据 - requests和自动化测试工具(Selenium)解析数据 - 正则表达式、css选择器、xpath存储数据 - 表格文件(csv、openpyxl)和数据库文件2. 获取网页数据1) 认识网站一个网页由三个部分组原创 2021-03-29 17:33:20 · 86 阅读 · 0 评论 -
css选择器和selenium
目录今日总结一、CSS1. css代码写在哪2. css代码怎么写3. css选择器(重点)二、selenium1. selenium基本使用2. selenium基本设置3. 淘宝设置cookie三、selenium的使用1.创建浏览器对象并且加载页面2. 基本配置3. 基本使用4. 创建浏览器对象5. 访问网页6. 查找单个元素7.查找多个元素8. 元素交互动作 - 对获取的元素调用交互方法9. 交互动作 - 将动作添加到动作链中串行执行10. 执行JavaScript11. 获取元素信息12. 等待原创 2021-03-30 17:44:34 · 413 阅读 · 0 评论 -
bs4AndPyquery
目录今日总结一、代理的使用1.requests设置代理2. selenium设置代理二、selenium控制页面滚动1. 滚动相关知识了解2. selenium滚动设置三、bs4数据解析1. 准备数据2.创建BeautifulSoup解析器对象3.获取标签4. 按照指定属性值查找标签5.获取内容和属性6. 获取标签属性今日总结一、代理的使用需先在代理网站购买获得API,商用代理推荐:蘑菇代理、芝麻代理、快代理、讯代理、阿布云代理1.requests设置代理import requestsimp原创 2021-03-31 20:23:09 · 230 阅读 · 0 评论 -
xpath和pyquery
目录今日总结一、pyquery1. 获取数据(只能是html界面)2. 创建PyQuery对象3. 获取标签4. 获取标签的内容和属性二、xPath 解析0. 准备网页数据1. 创建解析器对象2. 获取节点(获取标签)三、xPath的谓词0. 准备网页数据1. 位置2. 属性3. 通配符4. 同时选取多个路径5.获取内容和属性6. 获取标签属性四、xPath的使用选取节点谓语选取未知节点选取若干路径今日总结一、pyquerypyquery是通过css选择器来获取网页中的标签1. 获取数据(只能是h原创 2021-04-01 19:39:15 · 523 阅读 · 0 评论 -
爬虫知识总结
目录一、 爬虫是否违法?二、 爬虫的分类和作用?三、 爬虫怎么写?四、如何抓取动态内容?五、如何实现并发(并行)编程?一、 爬虫是否违法?法不禁止即为许可隐匿自己的身份(商业IP代理)不要被目标网站举证有破坏动产行为尽量遵守爬虫协议(robots.txt)二、 爬虫的分类和作用?通用爬虫 —> 搜索引擎定向爬虫 —> 有具体的爬取目标对中小企业来说,数据一定是短板,要么花钱买数据,要么写爬虫国家机器和很多的互联网产品做舆情监控基本也是通过网络爬虫来三、 爬虫怎么写原创 2021-04-06 19:02:39 · 274 阅读 · 0 评论