![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 63
qiushuidongshi
这个作者很懒,什么都没留下…
展开
-
爬虫,爬取豆瓣书城首页的书籍信息,requests下载页面,三种解析方式(正则,bs4,xpath)
import requestsr=requests.get('https://book.douban.com/')content=r.text需要解析的主要HTMl# <div class="info"># <div class="title"># <a class="" href="htt.原创 2018-07-27 19:19:26 · 626 阅读 · 0 评论 -
request+正则表达式,爬取豆瓣电影top100
import requests,re,jsonfrom requests.exceptions import RequestExceptionfrom multiprocessing import Pooldef get_page_source(url): headers={ "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) App...原创 2018-07-27 20:37:16 · 881 阅读 · 0 评论 -
很简单的一个爬取豆瓣音乐前250的一些信息。
from lxml import etreeimport requests#获取页面地址def getUrl(): for i in range(10): url = 'https://music.douban.com/top250?start={}'.format(i*25) scrapyPage(url)#爬取每页数据def scrapyPage(u...原创 2018-08-02 19:43:04 · 449 阅读 · 0 评论