爬虫
疯子书生z
这个作者很懒,什么都没留下…
展开
-
爬虫---------selenium抓取腾讯新闻
目录1.导入相关模块2.打开chromedriver3.设置滚动条4.滚动条下滑到定位的元素5.解析页面6.遍历标签输出结果7.输出结果抓取腾讯新闻思路:selenium模拟浏览器操作BeautlfulSoup解析存储数据1.导入相关模块from selenium import webdriverfrom bs4 import BeautifulSoupimport panda...原创 2020-04-27 11:04:28 · 755 阅读 · 0 评论 -
爬虫 ----------session和cookie
目录1.前置:动态网页和静态网页1.1 静态网页1.2 动态网页1.3 http1.02. session和cookies2.1 session2.2 cookies3.实战案例:模拟登录1631.前置:动态网页和静态网页1.1 静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到...原创 2020-04-25 15:04:55 · 393 阅读 · 0 评论 -
爬虫 -------Seleium
这里写目录标题1. selenium1.1 导入模块1. seleniumselenium是什么:一个自动化测试工具(大家都是这么说的)selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要准备工作:安装selenium(pip install selenium)安装chromedriver(一个驱动程序,用以...原创 2020-04-25 15:01:03 · 245 阅读 · 0 评论 -
爬虫 --------构建ip代理池
目录1.如何应对IP被封的问题2.获取代理IP地址2.1 使用代理2.2确认代理IP地址有效性2.3改进:确认网站title3 关于http和https代理我们在进行爬虫的时候,总会遇到ip被封的情况,是因为网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问。1.如何应对IP被封的问题有几种方法:修改请求头,模拟浏览器(而不是代...原创 2020-04-24 10:45:22 · 41906 阅读 · 0 评论 -
爬虫 -----beautifulsoup、Xpath、re (三)附淘宝比价定向爬虫
目录1.正则表达式 re1.1 正则表达式语法1.3 正则表达式re库的使用1.4 re库的主要功能函数:1.6 re库的另一种等价用法(编译)1.7 re 库的贪婪匹配和最小匹配2. 实例-淘宝商品比价定向爬虫1.正则表达式 re典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态...原创 2020-04-20 17:24:49 · 776 阅读 · 0 评论 -
爬虫 -----beautifulsoup、Xpath、re (二)附爬取丁香园用户名以及回复内容
目录1.Xpath简介1.1使用流程:1.2Xpath常用的路径表达式1.3 使用lxml解析2 实战:爬取丁香园-用户名和回复内容2.1 获取url的html2.2 lxml解析html2.3 利用Xpath表达式获取user和content(完成xpath的语句)2.4 保存爬取的内容1.Xpath简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XM...原创 2020-04-20 16:36:31 · 548 阅读 · 0 评论 -
爬虫 -----beautifulsoup、Xpath、re (一)附全国大学排名抓取
目录1.BeautifulSoup简介1.1 BeautifulSoup使用流程1.2 BeautifulSoup 库的基本元素1.3 基于bs4库的HTML内容遍历方法1.4基于bs4库的HTML内容的查找方法2. 实战:中国大学排名定向爬取2.1 从网络上获取大学排名网页内容2.2 提取网页内容中信息到合适的数据结构(二维数组)2.3 利用数据结构展示并输出结果1.BeautifulSou...原创 2020-04-20 16:17:33 · 750 阅读 · 1 评论 -
爬虫基础---简单使用(附带豆瓣电影top250)
文章目录1.简介1.1互联网1.2 HTTP2.网页基础2.2网页组成2.3网页结构2.4HTML DOM2.5CSS2.6使用开发者工具检查网页requests.get3.requests.post3.2request.get进阶:爬取豆瓣电影3.2.1<divclass="item"> :一部电影信息对应对应的源代码。4.使用api4.1API使用示例5.JavaScript与AJ...原创 2020-04-19 10:51:56 · 2708 阅读 · 0 评论