爬虫
文章平均质量分 65
神创
这个作者很懒,什么都没留下…
展开
-
【bs4】官网学习BeautifulSoup
>>> html_doc = """... <html><head><title>The Dormouse's story</title></head>... <body>... <p class="title">&原创 2018-03-07 21:14:03 · 678 阅读 · 0 评论 -
如何使用python Xpath 爬需要的信息? 未解决
参考:https://www.cnblogs.com/gaochsh/p/6757475.html挺困难的原创 2018-04-05 18:35:57 · 167 阅读 · 0 评论 -
python爬虫 如何获得完整链接(动态网页)
参考:https://blog.csdn.net/hdu09075340/article/details/74202339-------------------参考:https://www.cnblogs.com/hhh5460/p/5044038.html四中方法'''得到当前页面所有连接'''import requestsimport refrom bs4 import Beau...原创 2018-04-05 17:29:28 · 12059 阅读 · 0 评论 -
【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)
第一步:导入模块>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request -------------------------------------第二步:导入网址url = "http://zsb.szu.edu.cn/zbs.html" ----...原创 2018-04-04 23:15:00 · 20141 阅读 · 0 评论 -
【python爬虫】翻页爬取{探索}(未完成)
参考:https://www.cnblogs.com/yuexizhuo/p/3946178.html说明:利用urllib2中的post------------------------------------------------问题:什么是post键值?就是要去网页上面找page的页面标记规律。-----------------------------------------------pa...原创 2018-03-26 21:43:53 · 2029 阅读 · 0 评论 -
【python】根据图片链接(地址)抓取图片
参考:https://bbs.csdn.net/topics/391929530成功了import urlliburllib.urlretrieve('图片链接http://', 'f:/自己的本地地址.jpg')原创 2018-03-22 11:23:47 · 5940 阅读 · 0 评论 -
python爬虫【实例】爬取豆瓣电影评分链接并图示()-问题如何爬取电影图片(解决有代码)
这里只有尾巴,来分析一下确定范围:如何爬取图片并下载?参考:http://blog.csdn.net/chaoren666/article/details/53488083--------------------------------------------------------------放弃这个方法毕竟我用的都是python3--------------------------------...原创 2018-03-22 09:35:25 · 6468 阅读 · 0 评论 -
python爬虫【记录】BeautifulSoup 的用法遍历学习
前面都是顺理成章了 = =,这个网站好像不能爬取,半天没有反馈------------------换个网站:----------------------------------------------编码不对-----------------------------------------------------------------下面买有加()所以错了下面就正确了:-------------...原创 2018-03-21 23:55:53 · 732 阅读 · 0 评论 -
【python爬虫】尝试爬取-获取网站的编码信息(未完)
参考:http://blog.csdn.net/ajinglingmofashi/article/details/53611168>>> import urllib.request>>> shenda = urllib.request.urlopen(url)>>> shenda = "http://zsb.szu.edu.cn/">&g..原创 2018-03-21 21:49:46 · 546 阅读 · 0 评论 -
【转载】没有urllib2怎么办?安装不了urllib2怎么办?
参考:https://www.cnblogs.com/zdlfb/p/6130724.htmlpython 3.X版本是不需要安装:urllib2包的,urllib和urllib2包集合成在一个包了那现在问题是:在python3.x版本中,如何使用:urllib2.urlopen()?答:import urllib.requestresp=urllib.request.urlopen("http:...转载 2018-03-06 09:55:03 · 12220 阅读 · 0 评论 -
【实例】将python抓取的网页 导出 txt中
参考:【实例】python 使用beautifulSoup 抓取网页正文>>> import requests>>> import re>>> from bs4 import BeautifulSoup>>> r=requests.get("https://s.taobao.com/search?q=iphone")&am原创 2018-02-24 22:49:15 · 1423 阅读 · 0 评论 -
【实例】python 抓取网页标题?
pip install readability-lxml>>> import requests>>> from readability import Document>>> respose = requests.get('https://segmentfault.com/a/1190000005768094')>>> doc ...原创 2018-02-24 17:06:22 · 6345 阅读 · 3 评论 -
【爬虫】python 抓取百度百科 简介 导出txt(含自动翻页)(安装chromdriver)未完
参考:http://blog.csdn.net/forever_mumu/article/details/51009533(主要的参考,不过用的是python2 ,和我的Python有冲突)http://blog.csdn.net/shujuliu818/article/details/53587085 (为了解决其中代码的问题,参考了这个文章)摘录一下:(3.0版本中已经将urllib2、url...原创 2018-03-15 21:10:11 · 323 阅读 · 0 评论 -
【实例】python bs4 beautifulsoup + urllib.request 提取网址
>>> import re>>> from bs4 import BeautifulSoup>>> import urllib.request>>> import lxml>>> import requests>>> url = 'http://www1.sz原创 2018-03-08 16:26:58 · 2486 阅读 · 0 评论 -
【尝试】python BeautifulSoup特定内容的抓取
>>> from bs4 import BeautifulSoup>>> html = '<li><a href="brands/taschen/141193">Taschen</a></li>'>>> bs_obj = bs4.BeautifulSou原创 2018-03-08 10:57:55 · 1915 阅读 · 0 评论 -
【实例】python抓取网页,使用Xpath/lxml;BeautifulSoup/Bs4;urllib.request;re;最后导入excel
前面主要是解析html,提炼出所需的部分>>> import re,urllib.request>>> from bs4 import BeautifulSoup>>> from lxml import etree>>> url = "http://zsb.szu.edu.cn/zanouse_1">原创 2018-04-06 19:18:43 · 458 阅读 · 0 评论