python之爬虫的学习
Soul酒吧
这个作者很懒,什么都没留下…
展开
-
python爬虫入门(九)------scrapy实例
步骤:在命令行中输入一、建立一个Scrapy爬虫工程scrapy startproject BaiduStocks二、在工程中产生一个Scrapy爬虫cd BaiduStocksscrapy genspider stocks baidu.html三、配置产生的spider爬虫,编写项目中spiders目录下创建的文件,该项目中是stocks.py四、使用scrapy crawl stocks执行该跨框架目录结构编写stocks.py文件# -*- coding: utf-8 -*-原创 2021-02-24 13:17:34 · 127 阅读 · 0 评论 -
python爬虫入门(八)------scrapy学习
request vs Scrapy相同点:两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线;两者可用性都好,文档丰富,入门简单;两者都没有处理js、提交表单、应对验证码等功能(可扩展)不同点:requests:页面级爬虫;功能库;并发性考虑不足,性能较差;重点在于页面下载;定制灵活;上手十分简单。scrapy:网站级爬虫;框架;并发简单介绍python一个强大的爬虫框架(5+2结构) spinder: 解析Downloader返回的响应(response);产生爬取项(scr原创 2021-02-24 13:17:09 · 117 阅读 · 0 评论 -
python爬虫入门(七)------正则表达式re库实例
从淘宝中获取商品信息import requestsimport redef getHTMLLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return ""def parsePage(ilt,html): try: plt = re.findall(r'"view原创 2021-02-24 13:16:08 · 107 阅读 · 0 评论 -
python爬虫入门(六)------正则表达式学习
正则表达式的介绍正则表达式:用于表达一组字符串的方式(简洁)例如:'pn' 'pyn' 'pytn' 'pythn' 'python' 对应正则表达式:p(y|yt|yth|ytho)?n正则表达式的常用操作符. 表示任何单个字符;[] 字符集,对单个字符给出取值范围; [abc]表示a、b、c,[a-z]表示a到z单个字符[^] 非字符集,对单个字符给出排除范围;[^abc]表示非a或b或c的单个字符* 前一个字符0次或无限次扩展;abc*表示ab、abc、abcc原创 2021-02-24 13:15:46 · 253 阅读 · 0 评论 -
python爬虫入门(五)------beautifulsoup4库实例
爬取股票信息并保存到自己电脑上import requestsfrom bs4 import BeautifulSoupimport redef getHTMLText(url, code='utf-8'): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = code return r.text except:原创 2021-02-24 13:15:07 · 345 阅读 · 0 评论 -
python爬虫入门(四)------beautifulsoup4库的学习
爬取网页的强大助手安装pip install beautifulsoup4beautifulsoup4库的解析器解析器使用方法条件bs4的HTML解析器BeautifulSoup(mk,‘html.parser’)安装bs4库lxml的HTML解析器BeautifulSoup(mk,‘lxml’)pip install lxmllxml的XML解析器BeautifulSoup(mk,‘xml’)pip install lxmlhtml5lib的解原创 2021-02-24 13:14:36 · 144 阅读 · 0 评论 -
python爬虫入门(三)------request库的学习实例介绍
在百度上使用关键字搜索import requestskeyword = "Python"url = "https://www.baidu.com/s"try: kv = {'wd':keyword} r = requests.get(url,params=kv) r.raise_for_status() print(len(r.text))except: print("爬取失败")在京东获取信息import requestsurl = "https://item.jd.com/7原创 2021-02-24 13:13:54 · 98 阅读 · 0 评论 -
python爬虫入门(二)------request库的学习
request库方法介绍方法说明requests.request()构造一个请求,支撑一下各方法的基础方法requests.get()获取HTML网页的主要方法,对应于HTTP的GETrequests.head()获取HTML网页头信息的方法,对应于HTTP的HEADrequests.post()向HTML网页提交POST请求的方法,对应于HTTP的POSTrequests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUTre原创 2021-02-24 13:13:27 · 87 阅读 · 0 评论