python3网络爬虫开发实战
byakki
这个作者很懒,什么都没留下…
展开
-
Python3网络爬虫开发实战——第1章 开发环境
主要是说要爬虫就要安装的工具,仅简单说一下。大部分都能pip安装。python3 建议安装Anaconda,这样python3和Anaconda同时安装好了,为以后省去不少麻烦。请求库: requests, selenium, chromedriver, geckodriver, phantomjs, aiohttp解析库: lxml, beautiful soup, pyque...原创 2018-12-30 15:26:12 · 503 阅读 · 0 评论 -
Python3网络爬虫开发实战——第2章 爬虫基础
11原创 2019-02-12 11:04:34 · 210 阅读 · 0 评论 -
urllib 的基础
import urllib.requestimport urllib.parse # 用于解码中文url ='http://127.0.0.1:5000/' # 首先要访问的网址getdata = 'province=广东' # 用get方式发送数据内容,必须用key=value的形式getdata1 = 'city=深圳'postdata = 'province=广东' # 用p...原创 2019-02-27 20:31:07 · 146 阅读 · 0 评论 -
Python3网络爬虫开发实战——第3章 基本库的使用
作者讲了两个库,一个是urllib,一个是requests。因为后者更为方便,强大,直接看requests就好3.2原创 2019-02-25 21:39:02 · 1843 阅读 · 0 评论 -
requests 常用框架
import requestsdef getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: r...原创 2019-03-05 18:58:58 · 790 阅读 · 0 评论 -
爬虫小练习2
“迷你爬虫编程小练习”进阶:抽取豆瓣某本书的前 50 条短评内容并计算评分(star)的平均值。提示:有的评论中并不包含评分。import re,timeimport requestsfrom bs4 import BeautifulSoupcount = 0i = 0s,count_s,count_del = 0,0,0lst_stars =[]url = 'https://...原创 2019-04-21 21:28:45 · 1102 阅读 · 3 评论 -
爬虫小练习1
请在豆瓣任意找一本图书,抓取它某一页的短评并进行页面解析将短评文字抽取后输出, 再对其中的评分进行抽取计算其总分。import requestsfrom bs4 import BeautifulSoupimport resum = 0url = 'https://book.douban.com/subject/1456692/comments/'r = requests.get(u...原创 2019-04-15 09:04:07 · 1542 阅读 · 0 评论 -
爬虫小练习3
在“http://money.cnn.com/data/dow30/”上抓取道指成分股数据并将 30 家公司 的代码、公司名称和最近一次成交价放到一个列表中输出。import requests,reurl='https://money.cnn.com/data/dow30/'def retrieve_dji_list(): r = requests.get(url) ...原创 2019-04-22 21:58:59 · 1043 阅读 · 0 评论 -
爬虫小练习4
请爬取网页(http://www.volleyball.world/en/vnl/2018/women/results-andranking/round1)上的数据(包括 TEAMS and TOTAL, WON, LOST of MATCHES)提示:在处理时可以用已学的方法将每一项需要的内容(如USA 和 15)单独解析出来,但这种做法将有联系的数据打散了,较好的做法是将每个 TEAM的相...原创 2019-04-23 20:21:41 · 549 阅读 · 1 评论