爬虫
暮芸向铃
淡如静水
展开
-
改进版爬取猫眼电影,信息最全,beautifulsoup+re
改进版爬取猫眼电影,信息最全,采用beautifulsoup+re原创 2021-12-06 16:17:25 · 842 阅读 · 0 评论 -
禁止套娃!在csdn上写在csdn上的爬取的csdnTop100热榜,并进行数据分析(巨简单,快进来看看!)
分析通过f12,再XHR过滤掉其它内容,容易找到Top100的接口是这样的url = 'https://blog.csdn.net/phoenix/web/blog/hotRank?page=' + \ str(i)+'&pageSize=25'总共4页,用一个循环搞定接着博主采用了json库解析ps,csdn的cookie真持久,昨晚来不及爬取了,现在没更新cookie,依然能用…最后用二维列表储存用pandas输出csv文件总共20行有效代码吧,非常easy原创 2021-04-23 23:14:37 · 345 阅读 · 0 评论 -
全网最简单的15行代码爬取猫眼电影,快进来学!
分析看官,点个赞呀~很需要你们的支持请求头,cookie,user-agent这些信息,请F12,就看得到;url,只需要注意一点,每新一页page增加30;解析网页用的Beautifulsoup;提取信息使用的re;保存信息使用的pandas;其它见代码,非常简单,可以尝试跟着敲一敲import requestsfrom bs4 import BeautifulSoupimport timeimport reimport pandas as pdheaders = {原创 2021-04-19 23:54:07 · 1036 阅读 · 3 评论 -
简单分析top250的数据(三)
说明这个top250系列(二)爬取到了很多信息,接下来简单分析一下小声bb——比较忙,没什么文字,来不及陈述分析过程及结论(哭)首先引入必要的库import warningsfrom pandas_profiling import ProfileReportfrom collections import Counterimport numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot a原创 2021-04-18 12:33:22 · 158 阅读 · 2 评论 -
35行代码爬取豆瓣top250最全信息,Beautifulsoup(二)
说明看官多多点赞呀~上次爬取到了电影名,但远远不够,笔者试图对top250再进行数据分析,因此需要爬到更多的信息。代码如下,应该是CSDN代码量最少最简单的了~关于怎么保存爬取的数据,参看我之前的博客,很简单的;另外,为防止被封,爬取一页需要短暂的sleep(),我设定的1simport requestsfrom bs4 import BeautifulSoupimport timeimport reimport pandas as pdheaders = { 'Cookie':原创 2021-04-17 10:36:09 · 587 阅读 · 5 评论 -
将爬取的top250数据加以保存(文本,excel,sql)
将爬取的top250数据加以保存(文本,excel,sql)接着上篇的top250,我们得到top250的title,现在保存它!文本这个只需要熟悉文本的操作即可,注意换行!n=0with open('top250.txt', 'w') as f: #l列表储存的电影title for i in l: f.writelines('{},{}'.format(n, i)+'\n') n += 1结果大家自己运行一下咯~excel这个可以用到许多库,最原创 2021-04-15 12:47:05 · 168 阅读 · 0 评论 -
八行代码爬取豆瓣TOP250(一)
八行代码爬取豆瓣TOP250这里使用了bs4库,解析html非常好用,此处为展示它的快速强大,借用下例说明,仅用8行代码便爬取到了top250的电影名字import requestsfrom bs4 import BeautifulSoupheaders = {#此处填写cookie,User-agent}for i in range(25): #html通过request请求得到,().text将()转化成文本 html= requests.get( 'https:原创 2021-04-15 11:11:04 · 233 阅读 · 0 评论
分享