![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
爬虫的基础和实战
Mr_ChengX
这个作者很懒,什么都没留下…
展开
-
python 爬虫 正则表达式
正则表达式概述正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式的大致匹配过程是:1.依次拿出表达式和文本中的字符比较,2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。3.如果表达式中有量词或边界,这个过程会稍微有一些不同。正则表达式...转载 2020-04-14 09:04:59 · 182 阅读 · 0 评论 -
XPath语法与lxml模块
XPath概述xpath是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历xpath语法使用方式使用//获取整个页面当中的元素,然后写标签名,然后在写谓词进行提取//div[@class='abc']需要注意的知识点1./和//的区别:/代表只获取直接子节点。//获取子孙节点。一般//用的比较多,当然也要视情况而定。2.contain...原创 2020-04-13 10:42:29 · 136 阅读 · 0 评论 -
python 爬虫 requests 库
requests库安装pip install requests发送GET请求1.通过get请求response = requests.get("网址").2.添加headers和查询参数import requestskw = {'wd':'XX'}headers = {"User-Agent":"..."}response = requests.get("网址",param...原创 2020-04-10 08:45:42 · 106 阅读 · 0 评论 -
Cookie原理详解
cookie概述在网站中,HTTP请求时无状态的,也就是说即使第一次和服务器连接后并且登陆成功后,第二次服务器依然当前请求是哪个用户。cookie出现就是为了解决这个问题,第一次登录后服务器会返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送红第二个请求时,就会自动地把上次请求存储的cookie数据自动的携带给服务器,服务器通过浏览器携带的数据就能判断当前用户是哪个了。co...原创 2020-04-09 15:30:11 · 265 阅读 · 0 评论 -
urllib库
urllib库概述urllib库是Python中的一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。urlopen函数python3的urllib库中所有和网站请求相关的方法都被集中,在’urllib.request’模块中,urlopen可以将当页全部代码爬下来from urllib import requestres = reque...原创 2020-03-16 22:01:29 · 119 阅读 · 0 评论 -
htttp协议和chrome抓包工具
HTTP协议和HTTPS协议HTTP协议,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口是80端口。HTTPS协议是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口是443端口。URL解析URL是Uniform Resource Locator的简写,统一资源定位符。常用的请求方法在http协议中,定义了八种请求方法。这里介绍两种常用的请求...原创 2020-03-16 21:19:52 · 777 阅读 · 0 评论 -
网络爬虫概述
网络爬虫了解爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页,并把数据抓取下来,然后使用一定的规则提取有价值的数据。实际例子:搜索引擎(谷歌、百度等)通用爬虫和聚焦爬虫通用爬虫是搜索引擎系统的重要组成部分,主要将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。聚焦爬虫是面向特定需求的一种爬虫程序,与通用爬虫的区别在于,聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理...原创 2020-03-16 10:39:29 · 363 阅读 · 0 评论