![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python 个人学习
Python 个人学习
小粥粥出击
没什么好说的...
展开
-
Python爬虫学习4----爬取豆瓣《八佰》电影短评并生成词云
爬取豆瓣《八佰》电影短评并生成词云图片 import requests import lxml.html import jieba from wordcloud import WordCloud def getEssayStr(): s = requests.Session() headers = { 'Accept':'application/json', 'Accept-Encoding':'gzip, deflate, br', 'Accept-Languag原创 2020-08-27 15:53:57 · 905 阅读 · 0 评论 -
Python爬虫学习3----xpath爬取哔哩哔哩排行榜
爬取哔哩哔哩月排行榜,并输出csv格式文件。 import requests import lxml.html import csv source = requests.get('https://www.bilibili.com/ranking/all/0/0/30').content.decode('utf-8') selector = lxml.html.fromstring(source) items = selector.xpath('//ul[@class="rank-list"]/li')原创 2020-08-11 14:25:11 · 2849 阅读 · 0 评论 -
Python爬虫学习2----小说网站爬虫开发
从https://www.kanunu8.com/book3/8486抓取《天使国度的恶龙王妃》所有章节的网址,再通过一个多线程爬虫将每章的内容抓去下来。在本地创建一个“《天使国度的恶龙王妃》”的文件夹,并将小说的每一章分别保存到这个文件夹中。 import re import requests import os from multiprocessing import Pool def get_article_url_list(html): top_url = 'https://www.kanu原创 2020-08-10 14:30:40 · 473 阅读 · 0 评论 -
Python爬虫学习1----单线程和多线程访问网页比较
爬虫是I/O密集型操作,在请求网页源代码时,使用多线程可以大大提高爬虫的运行效率。 例子 import requests import time from multiprocessing.dummy import Pool def query(url): requests.get(url) start = time.time() for i in range(100): query('https://www.baidu.com/') end = time.time() print(f'单原创 2020-08-07 15:17:36 · 350 阅读 · 0 评论