![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
littlespider889
985非计算机硕士毕业
展开
-
小福利,python爬虫post方法小练习
小福利,python爬虫post方法小练习import requests,jsonheaders={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36', 'Cookie':'acw_tc=76b20ff116509755162456196e09d8ec81ac35bb原创 2022-04-28 18:49:29 · 117 阅读 · 0 评论 -
爬虫入门实战,python爬虫用json模块解析数据
网址1https://www.jianshu.com/p/a0c137378f10网址2https://www.jianshu.com/p/e4b4887b716a网址3https://www.jianshu.com/p/5cd653edfc08原创 2022-04-03 15:33:34 · 12 阅读 · 0 评论 -
小福利,带你python爬取数据并存为excel文件
import requests, re, lxmlfrom lxml import etreefrom bs4 import BeautifulSoupimport jsonimport pandas as pdimport openpyxlwb = openpyxl.Workbook()sheet = wb.activesheet.title = 'news-online'sheet['A1'] = '名称' # 加表头,给A1单元格赋值sheet['B1'] = '网址'原创 2022-04-03 15:03:29 · 52 阅读 · 0 评论 -
小福利,教你用python爬虫获取新闻
小福利,教你用python爬虫获取新闻在尝试了多个模块bs4,lxml,re,json,多种方法之后,终于找到了方法,功夫不负有心人,付出必有回报。import requests, re, lxmlfrom lxml import etreefrom bs4 import BeautifulSoupimport jsonimport pandas as pdheaders = { 'Referer': 'https://news.qq.com',原创 2022-04-03 14:51:24 · 24 阅读 · 0 评论 -
小福利,一秒抓取百度图片
小福利,Python教你一秒抓取百度beautiful girl图片,直接复制就能用import requests,reheaders = { 'Referer': 'http://www.baidu.com/', 'Origin':'http://www.baidu.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li原创 2022-03-27 08:32:55 · 303 阅读 · 1 评论 -
爬虫练习:保存为excel文件和存入MySQL数据库以及发送邮件
大家好,我是天空之城,今天给大家带来,爬取歌曲信息分别保存为excel文件和存入MySQL数据库,此处周董可以替换为任意一位歌手,还可以将歌曲信息全部发送到任何一个人的邮箱中。第一部分,爬取周董歌曲信息分别保存为excel文件import requests, openpyxlwb = openpyxl.Workbook()sheet = wb.activesheet.title = 'geci'sheet['A1'] = '歌曲名' # 加表头,给A1单元格赋值sheet['B1'原创 2022-03-17 20:56:24 · 53 阅读 · 0 评论 -
Python小趣味,利用xpath定位爬取数据
原创 2022-03-12 07:47:38 · 10 阅读 · 0 评论 -
Python小趣味,beautifulsoup模块解析爬取数据
原创 2022-03-12 07:42:43 · 13 阅读 · 0 评论 -
Python小趣味,正则表达式的运用
原创 2022-03-12 07:39:03 · 764 阅读 · 0 评论 -
Python小趣味:爬虫第五课
原创 2022-03-10 08:54:11 · 164 阅读 · 0 评论 -
Python小趣味:爬虫第四课
原创 2022-03-10 08:52:50 · 550 阅读 · 0 评论 -
Python小趣味:爬虫第三课
原创 2022-03-10 08:51:28 · 178 阅读 · 0 评论 -
Python小趣味:爬虫第二课
原创 2022-03-10 08:50:04 · 458 阅读 · 0 评论 -
Python小趣味:爬虫第一课
原创 2022-03-10 08:47:42 · 466 阅读 · 0 评论 -
小福利,三行代码让你获取gupiao信息
大家好,我是天空之城,今天给大家带来小福利,三行代码让你获取gupiao信息首先需要安装tushare模块import tushare as tsdf=ts.get_realtime_quotes('300750')[['name','price','pre_close','date','time']]print(df)上面的300750是gupiao代码,大家可以替换成自己需要的代码。so easy!万能的Python!...原创 2021-08-30 17:46:14 · 138 阅读 · 0 评论 -
小福利3,带你用Python里面的正则表达式爬取大数据
大家好,我是天空之城,今天给大家带来小福利3,带你用Python里面的正则表达式爬取大数据,效率杠杠滴!import requests,reheaders = { 'Referer': 'http://www.voice.baidu.com/', 'Origin':'http://www.voice.baidu.com/', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App原创 2021-08-28 17:48:00 · 224 阅读 · 1 评论 -
小福利2,带你Python爬虫国内各城市实时疫情数据。
大家好,我是天空之城,今天给大家带来小福利2,带你Python爬虫国内实时疫情数据。import requestsimport jsonimport pandas as pdurl = 'https://api.inews.qq.com/newsqa/v1/query/inner/publish/modules/list?modules=statisGradeCityDetail'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.原创 2021-08-27 20:29:20 · 1325 阅读 · 0 评论 -
小福利,Python带你一秒爬虫获取疫情数据和绘制数据图表!
大家好,我是天空之城,今天给大家带来小福利,Python带你一秒爬虫获取疫情数据和绘制数据图表!import requestsimport jsonimport pandas as pdurl='https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5&_t=0.5759220376658807'headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit原创 2021-08-26 19:50:22 · 1198 阅读 · 3 评论 -
小福利,用gevent多协程高效爬取海量数据
大家好,我是天空之城,今天给大家带来小福利,用gevent多协程高效爬取海量数据话不多说,代码如下from gevent import monkeymonkey.patch_all()import gevent,time,requestsfrom bs4 import BeautifulSoupfrom gevent.queue import Queuestart = time.time()header = { 'Referer': 'https://movie.douban.原创 2020-10-18 18:17:00 · 235 阅读 · 2 评论 -
小福利,爬取今日头条新闻信息
大家好,我是天空之城,今天给大家带来小福利,爬取今日头条新闻信息话不多说,代码如下import requestsheaders={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}url='https://www.toutiao.com/api/search/content/'原创 2020-10-15 14:26:42 · 756 阅读 · 0 评论 -
小福利,用selenium模块爬取qq音乐歌单
大家好,我是天空之城爬取qq音乐歌单话不多说,代码如下#--coding:utf-8--from selenium import webdriver # 从selenium库中调用webdriver模块import timefrom bs4 import BeautifulSoup# option = webdriver.ChromeOptions()# option.add_argument('headless') # 静默模式# # 打开chrome浏览器# driver =原创 2020-10-15 11:52:17 · 498 阅读 · 0 评论 -
小福利,e分钟带你爬取海量专利数据并保存为excel文件
大家好,我是天空之城,今天给大家带来小福利,e分钟带你爬取海量专利数据话不多说,代码如下:#--coding:utf-8--#导入网络请求模块import requestsimport openpyxlwb = openpyxl.Workbook()sheet = wb.activesheet.title = 'patent'sheet['A1'] = '专利名称' # 加表头,给A1单元格赋值sheet['B1'] = '摘要' # 加表头,给B1单元格赋值sheet['C原创 2020-10-14 10:26:52 · 2146 阅读 · 2 评论 -
小福利,如何根据爬虫获得的食物卡路里、自身基础热量和运动消耗量计算总的热量差
大家好,我是天空之城,今天给大家带来如何根据爬虫获得的食物卡路里、自身基础热量和运动消耗量计算总的热量差,这里涉及到了爬虫知识,数据的清洗和处理,以及简单的逻辑判断和计算。总的思路就是用获取的食物热量减去自身的基础热量和运动消耗的热量得到人体剩余的热量差。第一步,首先是通过爬虫获得所有食物的卡路里数据import gevent,time,requestsfrom bs4 import BeautifulSoupfrom gevent.queue import Queuefrom gevent im原创 2020-10-07 17:01:54 · 1200 阅读 · 2 评论 -
e分钟带你用Python爬取海量数据
大家好,我是天空之城。在我们的日常工作和生活中,总是会碰到需要采集大量数据的情况,这些数据都有固定的格式,例如一份专利文件就会有多个字段,如申请日,申请人,发明人,公开日,分类号,摘要和权利要求书等等。那么如果我们现在需要在极短时间内获取上百、上千、甚至上万份这些专利的上述信息该怎么办呢?常规的方法就是先检索出来再逐条复制粘贴,然后通过格式转换软件把上述信息转成excel文件,方便我们进行下一步的数据处理!但是Python就为我们提供了另一种解决问题的思路,我们可以通过写一个Python爬虫程序,直接将上原创 2020-10-03 19:45:31 · 728 阅读 · 4 评论