python爬虫
单明火
这个作者很懒,什么都没留下…
展开
-
爬取当当网图书信息
大体思路: 列表页数据条数完整,但单条数据信息不完整,所以先爬取列表页单条数据的url; 再从这个url中提取每条数据的详细信息。import requestsimport refrom bs4 import BeautifulSoupimport pandas as pdn=0name_list=[]price_list=[]r = requests.get("http://sea原创 2017-11-23 19:23:25 · 2852 阅读 · 0 评论 -
爬取当当网图书图片
import requestsfrom bs4 import BeautifulSoupimport redef getHTMLText(url): try: r = requests.get(url) r.encoding = r.apparent_encoding r.raise_for_status() return原创 2017-10-26 00:05:35 · 2396 阅读 · 0 评论 -
爬取天气数据+热力图
第一次用旧知识爬取天气网站数据。import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encodin原创 2017-10-11 18:49:53 · 6064 阅读 · 0 评论 -
大学排名信息爬取
import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return原创 2017-09-30 16:28:54 · 431 阅读 · 0 评论 -
BeautifulSoup0929
补充: 创建Beautiful Soup对象: soup = BeautifulSoup(html, ‘html.parser’)一、Beautiful Soup类基本元素(5):例、<p class="title">...</p><p>...</p>:标签Tag'p':标签名字nameclass="title":属性Attri...原创 2017-09-29 10:40:19 · 272 阅读 · 0 评论 -
Requests20170928
HTTP协议: URL格式:http://host:port[path] host:合法的Internet主机域名或IP地址 path:请求资源的路径URL是通过HTTP协议存取资源的Internet路径。requests库的主要方法: 1、r = requests.request():构造一个请求,支撑以下各方法的基础方法 2、r = requests.get():获取HTML网页的主要原创 2017-09-28 22:54:41 · 204 阅读 · 0 评论 -
淘宝商品数据爬取
import requestsimport redef getHTMLText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text exc原创 2017-09-28 14:40:51 · 1964 阅读 · 0 评论