![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
关于python爬虫的学习笔记,主要是基础知识
迦零
Try to do
展开
-
Python爬取京东书籍信息(包括书籍评论数、简介等)
Python爬取京东书籍信息(包括书籍评论数、简介等)一. 工具二. 准备爬取的数据三. 内容简述四. 页面分析(一) 寻找目录中商品所在标签(二) 寻找页面中能爬取到的所有数据(三) 寻找评论数所在链接(四) 寻找书籍简介所在链接五. 代码整合一. 工具PyCharmScrapyChrome浏览器二. 准备爬取的数据items.pyimport scrapyclass JdbookItem(scrapy.Item): # define the fields for your原创 2020-08-02 18:08:11 · 4441 阅读 · 0 评论 -
Python爬虫篇--3
学习笔记目录一. 正则表达式二. 抓去网页的思路三. BeautifulSoup类(HTML解析库)一. 正则表达式python的re库:match()方法:两个参数分别是需传入的正则表达式和需要匹配的字符串(细节:标记匹配目标、贪婪与非贪婪、修饰符、转义匹配);search()方法:用途如:利用正则表达式获取第一对“歌手、歌名”对应信息;findall()方法:用途如:利...原创 2020-04-02 23:46:34 · 92 阅读 · 0 评论 -
Python爬虫篇--2
爬虫基础篇(3.30-3.31)重新收集了request的内容目录一. 爬取网页的通用代码框架二. requests库的七个主要方法三. requests库的request方法一. 爬取网页的通用代码框架import requestsdef getHTMLText(url): try: r = requests. get(url, tim...原创 2020-04-01 00:21:47 · 138 阅读 · 0 评论 -
Python爬虫篇--1
学习笔记(3.27-3.29)这几天主要学爬虫的基础知识,然后跟着一些示例进行尝试,接下来还得进行一些简单的实战,才能更好地掌握。下面是记录的一些基础知识的笔记。一. 爬虫基础HTTP基本原理:访问网站时分为两个步骤:请求;响应1.请求:①常见的两种请求有GET和POST;②请求网址:URL;③请求头:包 含Cookie、Referer、User-Agent等重要信息;2.响应:①响...原创 2020-03-30 01:35:28 · 142 阅读 · 0 评论