- 博客(13)
- 收藏
- 关注
原创 简单爬取Library genesis 免费文献下载网
Library genesis 免费文献下载网(列表简单)import requests.import pandas as pfrom bs4 import BeautifulSoup as bsdef spider(url): req=requests.get(url) req.encoding='utf-8' return bs (req.text,'html.parser')def pandaWork(lis1,lis2,lis3): data=p.Dat
2020-12-02 10:07:13 1324
原创 简单爬取去哪儿网
去哪儿网import requestsimport pandas as pfrom bs4 import BeautifulSoup as bsdef spider(url): req=requests.get(url) req.encoding='utf-8' return bs(req.text,'html.parser')def pandaWork(lis1,lis2,lis3): data=p.DataFrame({'地区名称':lis1,'地址':li
2020-12-02 10:03:58 924 2
原创 爬取相亲网-含导出xls
import randomimport timeimport requestsurl='http://www.hongniang.com/match'time.sleep(random.uniform(0,10))headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}params =
2020-11-04 11:32:23 383
转载 Python网络爬虫实战:爬取携程网酒店评价信息
这个爬虫是在一个小老弟的委托之下写的。 他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙。 爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下。 这次爬取过程稍微曲折,各种碰壁,最终成功的过程,还是有点意思。 所以本文我会按照自己当时爬取的思路来讲述,希望能给大家一些思路上的启发。 分析部分略长,如果赶时间可以直接拉到最下面,自取代码。 如果是想学习爬虫的话,最好还是跟着文章的思路走...
2020-11-04 10:50:53 12246 6
原创 爬虫-MEITUAN(增加爬取量)
在之前的基础上多加了美团评分的爬取import pandas as pdimport requests from bs4 import BeautifulSoupimport jsondef analyze(url): r=requests.get(url,headers={'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.424
2020-11-04 07:40:31 697
原创 爬取链家租房
代码块已整理过,就单独隔块放出import requestsfrom bs4 import BeautifulSoupdef getURL(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding except: print('爬取失败') return r.textdef sortURL(l,text)
2020-11-03 13:45:23 370 2
原创 爬取红娘网-征婚信息并导出文本文件
爬取如下中国红娘网的页面,要求把内容块中的咨询整理成一条并整合整页征婚讯息,导出import requests##import库url='http://www.hongniang.com/match'req=requests.get(url)req.status_code##输出200【可以爬取】req.request.url##输出允许爬取的url:'http://www.hongniang.com/match'req.text##爬取页面的块代码html=req.text#
2020-11-03 13:41:12 531 1
原创 爬取软科-中国大学排行榜
爬取软科中国大学排行榜要求最后得到的文本爬取的格式如下import requestsr=requests.get('http://www.shanghairanking.cn/rankings/bcur/2020')r.status_coder.encoding=r.apparent_encodingr.text##输出展示文本school=r.textfrom bs4 import BeautifulSoupsoup=BeautifulSoup(school,'html
2020-11-03 13:15:35 746
原创 红楼梦小说爬取-范例
Python-爬取红楼梦爬取小说目标网站https://www.ddshu.net爬取代码爬取小说目标网站https://www.ddshu.net我们观察红楼梦后方的数字,代号为148,然后点击前十篇进行逻辑推理第一章——第五章(781449—781453.html) 但是观察到**第六章(782003)时发现断层继续观察发现到最后一章第120章(782117)**时正好连续接上所以我们这边从第六章开始爬取爬取代码url_base='https://www.
2020-11-03 00:16:19 1823
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人