Python
Ellennnnnnnnnn
这个作者很懒,什么都没留下…
展开
-
股票数据Scrapy爬虫
优化stocks.py# -*- coding: utf-8 -*-import scrapyimport re class StocksSpider(scrapy.Spider): name = "stocks" start_urls = ['https://quote.eastmoney.com/stocklist.html'] ...原创 2020-03-26 17:31:57 · 513 阅读 · 0 评论 -
Scrapy爬虫框架
Scrapy是一个快速功能强大的网络爬虫框架 框架结构 5+2框架解析requests vs ScarpyScrapy 命令Scrapy的第一个实例yield 关键字的使用Scrapy的基本使用框架结构 5+2框架解析requests vs ScarpyScrapy 命令Scrapy的第一个实例yield 关键字的使用Scr...原创 2020-03-26 16:48:10 · 217 阅读 · 0 评论 -
股票数据定向爬虫
import requestsfrom bs4 import BeautifulSoupimport tracebackimport re def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_e...原创 2020-03-22 10:58:45 · 423 阅读 · 0 评论 -
淘宝商品比价定向爬虫
import requestsimport re def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text ...原创 2020-03-22 10:00:55 · 416 阅读 · 0 评论 -
Re(正则表达式)库入门
正则表达式regular expression ,regex,RE正则表达式是用来简洁表达一组字符串的表达式正则表达式的语法正则表达式语法由字符和操作符构成.表示任何单个字符[]字符集,对单个字符给出取值范围 [abc]表示a、b,c,[a-z]表示a到z单个字符```[^ ]``非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符* 前一个字符0次或无限次...原创 2020-03-21 12:18:19 · 237 阅读 · 0 评论 -
中国大学排名定向爬虫
功能描述输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests-bs4定向爬虫:仅对输入URL进行爬取,不扩展爬取定向爬虫可行性查看网页:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html查看robots协议:http://www.zuihaodaxue.cn/robots.t...原创 2020-03-19 16:46:19 · 256 阅读 · 0 评论 -
BeautifulSoup库入门
安装#win平台以管理员权限运行cmdpip install beautifulsoup4 #验证是否安装成功import requestsr = requests.get("http://python123.io/ws/demo.html")r.textdemo = r.textfrom bs4 import BeautifulSoupsoup = BeautifulSoup...原创 2020-03-19 14:49:40 · 178 阅读 · 0 评论 -
Requests库网络爬虫实战(5个实例)
实例1:京东商品页面的爬取import requestsurl = "https://item.jd.com/100005185593.html" #京东mate30 5gtry: r = requests.get(url) r.raise_for_status() #如果不是200,则产生异常 r.encoding = r.apparent_encoding #从内容返回编码方式 ...原创 2020-03-17 20:40:48 · 1520 阅读 · 0 评论