自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

py嘎嘎的博客

普通的作业狗

  • 博客(13)
  • 收藏
  • 关注

原创 【SQL】Mosh lessons day3

多表连接(连接最好不要超过3张,影响查询速度)

2024-08-13 22:39:31 170

原创 【SQL】Mosh lessons day2

work practise

2024-08-03 00:09:24 156

原创 【SQL】Mosh lessons day1

理论学多了,分数不见涨,今年学点实用的

2024-08-02 01:03:37 201

原创 函数的24种极限定义表格(:D提桶跑路自整理备考用)

函数极限的24个定义表格(基础不牢,地动山摇)

2024-03-28 10:29:06 1225

原创 简单爬取Library genesis 免费文献下载网

Library genesis 免费文献下载网(列表简单)import requests.import pandas as pfrom bs4 import BeautifulSoup as bsdef spider(url): req=requests.get(url) req.encoding='utf-8' return bs (req.text,'html.parser')def pandaWork(lis1,lis2,lis3): data=p.Dat

2020-12-02 10:07:13 1324

原创 简单爬取去哪儿网

去哪儿网import requestsimport pandas as pfrom bs4 import BeautifulSoup as bsdef spider(url): req=requests.get(url) req.encoding='utf-8' return bs(req.text,'html.parser')def pandaWork(lis1,lis2,lis3): data=p.DataFrame({'地区名称':lis1,'地址':li

2020-12-02 10:03:58 924 2

原创 爬取相亲网-含导出xls

import randomimport timeimport requestsurl='http://www.hongniang.com/match'time.sleep(random.uniform(0,10))headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}params =

2020-11-04 11:32:23 383

转载 Python网络爬虫实战:爬取携程网酒店评价信息

这个爬虫是在一个小老弟的委托之下写的。 他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙。 爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下。 这次爬取过程稍微曲折,各种碰壁,最终成功的过程,还是有点意思。 所以本文我会按照自己当时爬取的思路来讲述,希望能给大家一些思路上的启发。 分析部分略长,如果赶时间可以直接拉到最下面,自取代码。 如果是想学习爬虫的话,最好还是跟着文章的思路走...

2020-11-04 10:50:53 12246 6

原创 爬虫-MEITUAN(增加爬取量)

在之前的基础上多加了美团评分的爬取import pandas as pdimport requests from bs4 import BeautifulSoupimport jsondef analyze(url): r=requests.get(url,headers={'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.424

2020-11-04 07:40:31 697

原创 爬取链家租房

代码块已整理过,就单独隔块放出import requestsfrom bs4 import BeautifulSoupdef getURL(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding except: print('爬取失败') return r.textdef sortURL(l,text)

2020-11-03 13:45:23 370 2

原创 爬取红娘网-征婚信息并导出文本文件

爬取如下中国红娘网的页面,要求把内容块中的咨询整理成一条并整合整页征婚讯息,导出import requests##import库url='http://www.hongniang.com/match'req=requests.get(url)req.status_code##输出200【可以爬取】req.request.url##输出允许爬取的url:'http://www.hongniang.com/match'req.text##爬取页面的块代码html=req.text#

2020-11-03 13:41:12 531 1

原创 爬取软科-中国大学排行榜

爬取软科中国大学排行榜要求最后得到的文本爬取的格式如下import requestsr=requests.get('http://www.shanghairanking.cn/rankings/bcur/2020')r.status_coder.encoding=r.apparent_encodingr.text##输出展示文本school=r.textfrom bs4 import BeautifulSoupsoup=BeautifulSoup(school,'html

2020-11-03 13:15:35 746

原创 红楼梦小说爬取-范例

Python-爬取红楼梦爬取小说目标网站https://www.ddshu.net爬取代码爬取小说目标网站https://www.ddshu.net我们观察红楼梦后方的数字,代号为148,然后点击前十篇进行逻辑推理第一章——第五章(781449—781453.html) 但是观察到**第六章(782003)时发现断层继续观察发现到最后一章第120章(782117)**时正好连续接上所以我们这边从第六章开始爬取爬取代码url_base='https://www.

2020-11-03 00:16:19 1823

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除