python爬虫
文章平均质量分 65
五彩的星空
这个作者很懒,什么都没留下…
展开
-
Python 学习之路(一)
#coding:utf-8import requests #引入库from bs4 import BeautifulSoupurl = 'http://news.qq.com'wbdata = requests.get(url).textsoup = BeautifulSoup(wbdata,'lxml') #BS4库解析news_titles = soup.select('d...原创 2018-02-21 15:53:26 · 161 阅读 · 0 评论 -
抓取大学排名
import requestsfrom bs4 import BeautifulSoupalluniv = []def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status()#提高状态。 r.encoding = 'utf-8' ...转载 2018-02-21 16:43:50 · 319 阅读 · 0 评论 -
爬取转转网站
import requestsfrom bs4 import BeautifulSoupdef get_time_info(url): url = "http://zhuanzhuan.58.com/detail/926455279137210889z.shtml?fullCate=&fullLocal=&zzfrom=NaN&zhuanzhuanSourc...原创 2018-02-21 22:42:08 · 1475 阅读 · 1 评论 -
豆瓣小王子短评抓取——学习笔记(一)
# -*-coding:utf-8-*-import requestsr = requests.get('https://book.douban.com/subject/1084336/comments/').textfrom bs4 import BeautifulSoupsoup = BeautifulSoup(r,'lxml')pattern = soup.find_all('...原创 2018-03-04 01:01:17 · 1131 阅读 · 1 评论 -
scrapy 安装指南,中间遇到的坑twisted
突然有一天,爬虫框架 scrapy 不能用了,可能因为重新安装的anaconda ,报错显示 需要安装 c++ 14.0,其实不用安装这个,看上一行 显示twisted 这个文件安装失败,所以 只要重新安装这个文件就可以了,https://www.lfd.uci.edu/~gohlke/pythonlibs/然后下载 对应的Python 版本啊 ,2.7就下2.7, 3.6就下载3.6...原创 2018-07-25 21:14:14 · 2183 阅读 · 3 评论 -
解析神器xpath
1、xpath即为xml路径语言,它是一种用来确定XML文档中某部分位置的语言。2、xpath解析网页的流程1、首先通过request 库获取网页数据2、通过网页解析,得到想要的数据或者新的连接1、获取xpath 的方法1、从浏览器直接复制 :首先在浏览器上定位到需要爬取的数据右键,copy ,copy xpath 完成复制 ...原创 2018-08-07 17:11:38 · 466 阅读 · 0 评论 -
windows下解决pip安装模块超时的问题
windows 下安装总是出现 time out 超时问题,设置时长也比较麻烦,国外的源 都是很慢,所以 用豆瓣源或者 清华大学的源安装就行了。在电脑上找到pip 文件,文件用记事本打开,修改豆瓣源,保存就可以了下载速度3.7M[global]timeout = 6000index-url = http://pypi.douban.com/simpletrusted-hos...原创 2018-08-08 11:01:19 · 1212 阅读 · 0 评论 -
python文件和异常
1、什么是文件?什么是异常?你的程序可以从文件中读取信息,也可以将数据写入文件,读取文件时,可以访问各种信息,把文本写入文件时,也可以把Python结构体(如列表)存储在文件中。异常是帮助程序以适当方式响应错误的特殊对策,如果你的程序尝试打开不存在的文件时,可以使用异常来显示带有提示性的错误消息,而不是让程序崩溃。读取文件要读取文件,程序需要打开文件,然后读取文件的内容,你可以一次...原创 2018-08-23 14:28:39 · 624 阅读 · 0 评论