python 爬虫
鹏鹏写代码
执着勇敢,一如少年!
展开
-
Python爬取百度文库并存储为word文档
在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx。doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于Office Open XML标准的压缩文件格式,比 doc文件所占用空间更小。docx格式的文件本质上是一个ZIP文件,所以其实也可以把.docx文件直接改成.zip,解压后,里面的 word/document.xml包含了Word文档的大部分内容,图片文件则保存在word/media里面。python-do原创 2020-12-26 15:08:47 · 3269 阅读 · 2 评论 -
Python利用requests库爬取百度文库文章
本来马上做课设,做课设太烦了,所以只好偷工减料,但是想下载一个百度文库的文章,结果一看还要会员,这作为一个程序员怎么受得了。这岂不是让一个本不富裕的家庭更加的雪上加霜。那我只能靠Python维持学习了!python爬取百度文库1.Requests2.安装requests3.代码1.RequestsRequests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP原创 2020-12-22 14:34:56 · 1567 阅读 · 2 评论 -
python—scrapy框架写爬虫教程
六.Requests库和Scrapy库比较:1.相同点:(1)两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线;(2)两者可用性都好,文档丰富,入门简单;(3)两者都没有处理js,提交表单,应对验证码等功能。2.不同点(1)requests库主要是页面爬取,scrapy库主要是网站爬虫;(2)Requests功能库,scrapy主要是框架;(3)Requests库并发性考虑不足,性能较差;scrapy并发性好,性能较高;(4)Requests重点在于页面下载,scrapy在原创 2020-05-12 14:51:20 · 995 阅读 · 0 评论 -
python定向爬虫实例-中国大学排名
1.程序结构设计:(1)步骤1.从网络中获取大学排名网页内容 getHTMLText();(2)步骤2.提取网页内容信息到合适的数据结构 fillUnivList();(3)步骤2.利用数据结构展示并输出结果 printUnivList();2.源代码显示:中国大学排名源代码import requestsfrom bs4 import BeautifulSoupimport bs4 def getHTMLText(url): try: r = requests原创 2020-05-12 15:05:03 · 630 阅读 · 1 评论 -
python爬取淘宝商品信息以及正则表达式
正则表达式1.正则表达式:用来简洁表达一组字符串的表达式;2.一行胜千言3.‘PY’开头,后续存在不多于10个字符,后续字符不能是‘P’或者‘Y’;4.通用字符串表达框架5.简洁表达一组字符串的表达式;6.针对字符串表达“简洁”和“特征”思想的工具;7.判断某字符串的特征归属;8.正则表达式的作用:(1)表达文本类型的特征;(2)同时查找或替换一组字符串;(3)匹配字符串的全部或部分;9.正则表达式的语法:正则表达式由字符和操作符构成;Re库1.Re库是python的标准库,主要原创 2020-05-12 15:17:40 · 2037 阅读 · 3 评论 -
python美味的汤-BeautifulSoup介绍
1.BeautifulSoup库的理解: BeautifulSoup对应一个HTML/XML文档的全部内容;2.BeautifulSoup库解析器:bs4的HTML解析器:使用方法:BeautifulSoup(mk,‘html.parser’);条件:安装bs4库lxml的HTML解析器:使用方法:BeautifulSoup(mk,‘lxml’);条件:pip install lmxllxml的XML解析器:使用方法: BeautifulSoup(mk,‘xml’)条件:pip i原创 2020-05-12 16:45:45 · 1046 阅读 · 0 评论 -
python爬虫实战1-基础代码篇1
1.爬取百度贴吧内容import urllib.requesturl = "http://tieba.baidu.com"response = urllib.request.urlopen(url)html = response.read() #获取页面源代码print(html.decode('utf-8')) #转换为utf-8爬虫结果展示:1.urllib是python标准库中用于网络请求的库,有四个模块,urllib.request、urllib.error、urllib.par原创 2020-07-14 22:26:05 · 451 阅读 · 3 评论