![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫从入门到入土
记录关于爬虫从入门到入土的过程
追随光、成为光
这个作者很懒,什么都没留下…
展开
-
Redis导入MySql脚本
# -*- coding:utf-8 -*-#@Time : 2022/1/7 21:17#@Author : dogge#@File :test.py#@software:PyCharm# -*- coding: utf-8 -*-import jsonimport redis # pip install redisimport pymysqldef main(): # 指定redis数据库信息 rediscli = redis.StrictRedis(host.转载 2022-01-08 11:31:05 · 338 阅读 · 0 评论 -
爬取北京新发地蔬菜价格
北京新发地# -*- coding:utf-8 -*-#@Time : 2021/12/30 11:25#@Author : dogge#@File :test.py#@software:PyCharmimport requestsimport csvclass vegatable_data: def __init__(self): self.url = 'http://www.xinfadi.com.cn/getPriceData.html' .原创 2021-12-30 22:35:27 · 934 阅读 · 0 评论 -
爬虫常用解析库bs4 xpath常见用法
BeautifSoup41.使用标签名定位标签这种方法只能定位第一个该标签名对应的标签PS:提取标签内的文本信息 使用标签对象.string或 标签对象.text两者区别:如果string标签内还有其他的标签,使用string会提取出None,而使用text会将标签内中的全部标签的文本提取出来...原创 2021-12-30 21:08:11 · 1337 阅读 · 0 评论 -
Python北理工mooc爬虫笔记之requests库
request.get()函数原型request对象的属性方法r.text与r.content的区别r.text是程序根据猜测的响应内容编码方式来编写的,也就是r.encoding,这个编码方式是从返回信息中的headers中获取到的,如果headers中没有,那么则默认为ISO-8859-1,而r.apparent_encoding是从网页html文件中信息解析出来的编码,一般来说使用r.text获取网页的信息,如果r.text出现乱码,才会使用r.content.decoding(.原创 2020-05-11 21:12:41 · 266 阅读 · 0 评论 -
Python爬虫之爬虫原理(2)
爬虫的基本流程发起请求向目标站点发起一个http请求,请求的信息我们可以自己指定,然后等待服务器响应获取响应内容如果服务器正常响应,会得到一个reponse,它里面的内容就是服务器返回的页面内容,类型可能是html,json字符串,二进制信息等类型解析内容若得到的内容是html,则可以用正则表达式和页面解析库(如BeautifulSoup)进行解析,若是json,可以直接转换为json对象进行解析,若为二进制数据,则可以保存或者进一步处理保存数据保存数据可以保存到文本,也可以原创 2020-05-09 12:35:52 · 284 阅读 · 0 评论 -
Python之初识爬虫(1)
什么是爬虫网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据爬虫能做什么可以自动化爬取你想浏览的信息,非常快速方便。爬虫的本质是什么模拟打开浏览器,获取网页上我们需要的那部分信息浏览器打开网页过程:输入一个网址后,通过DNS服务器找到服务器主机,向服务器发送请求,服务器解析后发送给浏览器结果,包括html、js、css等内容,浏览器将信息解..原创 2020-05-09 12:09:36 · 217 阅读 · 0 评论