有点emo的Neo-CSDN博客

原创【SQL】Mosh lessons day3

多表连接（连接最好不要超过3张，影响查询速度）

2024-08-13 22:39:31 170

原创【SQL】Mosh lessons day1

理论学多了，分数不见涨，今年学点实用的

2024-08-02 01:03:37 201

原创函数的24种极限定义表格（：D提桶跑路自整理备考用）

函数极限的24个定义表格（基础不牢，地动山摇）

2024-03-28 10:29:06 1225

Library genesis 免费文献下载网（列表简单）import requests.import pandas as pfrom bs4 import BeautifulSoup as bsdef spider(url): req=requests.get(url) req.encoding='utf-8' return bs (req.text,'html.parser')def pandaWork(lis1,lis2,lis3): data=p.Dat

2020-12-02 10:07:13 1324

原创简单爬取去哪儿网

去哪儿网import requestsimport pandas as pfrom bs4 import BeautifulSoup as bsdef spider(url): req=requests.get(url) req.encoding='utf-8' return bs(req.text,'html.parser')def pandaWork(lis1,lis2,lis3): data=p.DataFrame({'地区名称':lis1,'地址':li

2020-12-02 10:03:58 924 2

原创爬取相亲网-含导出xls

import randomimport timeimport requestsurl='http://www.hongniang.com/match'time.sleep(random.uniform(0,10))headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}params =

2020-11-04 11:32:23 383

转载 Python网络爬虫实战：爬取携程网酒店评价信息

这个爬虫是在一个小老弟的委托之下写的。他需要爬取携程网上的酒店的评价数据，来做一些分词和统计方面的分析，然后来找我帮忙。爬这个网站的时候也遇到了一些有意思的小麻烦，正好整理一下拿出来跟大家分享一下。这次爬取过程稍微曲折，各种碰壁，最终成功的过程，还是有点意思。所以本文我会按照自己当时爬取的思路来讲述，希望能给大家一些思路上的启发。分析部分略长，如果赶时间可以直接拉到最下面，自取代码。如果是想学习爬虫的话，最好还是跟着文章的思路走...

2020-11-04 10:50:53 12246 6

原创爬虫-MEITUAN（增加爬取量）

在之前的基础上多加了美团评分的爬取import pandas as pdimport requests from bs4 import BeautifulSoupimport jsondef analyze(url): r=requests.get(url,headers={'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.424

2020-11-04 07:40:31 697

原创爬取链家租房

代码块已整理过，就单独隔块放出import requestsfrom bs4 import BeautifulSoupdef getURL(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding except: print('爬取失败') return r.textdef sortURL(l,text)

2020-11-03 13:45:23 370 2

原创爬取红娘网-征婚信息并导出文本文件

爬取如下中国红娘网的页面，要求把内容块中的咨询整理成一条并整合整页征婚讯息，导出import requests##import库url='http://www.hongniang.com/match'req=requests.get(url)req.status_code##输出200【可以爬取】req.request.url##输出允许爬取的url:'http://www.hongniang.com/match'req.text##爬取页面的块代码html=req.text#

2020-11-03 13:41:12 531 1

原创爬取软科-中国大学排行榜

爬取软科中国大学排行榜要求最后得到的文本爬取的格式如下import requestsr=requests.get('http://www.shanghairanking.cn/rankings/bcur/2020')r.status_coder.encoding=r.apparent_encodingr.text##输出展示文本school=r.textfrom bs4 import BeautifulSoupsoup=BeautifulSoup(school,'html

2020-11-03 13:15:35 746

原创红楼梦小说爬取-范例

Python-爬取红楼梦爬取小说目标网站https://www.ddshu.net爬取代码爬取小说目标网站https://www.ddshu.net我们观察红楼梦后方的数字，代号为148，然后点击前十篇进行逻辑推理第一章——第五章（781449—781453.html）但是观察到**第六章(782003)时发现断层继续观察发现到最后一章第120章(782117)**时正好连续接上所以我们这边从第六章开始爬取爬取代码url_base='https://www.

2020-11-03 00:16:19 1823

py嘎嘎的博客