自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 知乎爬虫二

爬虫目标本次爬虫需要从知乎的话题精华回答中爬取前1000个回答的问题。然后得到关注数最多的100个问题的url后,到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分:1.爬取精华回答页面,获取每个回答对应的问题的url。2.爬取上一步的问题页面获取问题的关注人数、评论数,用来选择最热门问题。3.爬取热门问题主页的前50%回答内容、回答获得的赞同数、回答时间、回...

2020-04-21 00:14:18 398

原创 获取新闻联播文字稿

从tushare获取央视联播新闻稿数据联播新闻稿获取tushare实际上是一个支持金融分析的接口包,主要提供股票数据。在其提供的特色大数据中有新闻联播文字稿。2020年新冠疫情期间还添加了新冠肺炎感染人数、全球新冠疫情数据。代码import tushare as tsts.set_token('xxx1')pro = ts.pro_api('xxx1')df = pro.cctv_...

2020-04-20 23:55:56 1198

原创 知乎动态数据加载爬虫

爬虫目标本次爬虫需要从知乎的话题新型冠状病毒肺炎的精华回答中爬取前100个回答的问题。然后得到<=100的问题的url后,到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分:1.爬取精华回答页面,获取每个回答对应的问题的url。2.爬取上一步的问题页面获取问题的关注人数、评论数,用来选择最热门问题。3.爬取热门问题主页的前50%回答内容、回答获得的赞同数...

2020-04-20 23:53:51 621

原创 Python文本分析及预处理

文本分析的基本功能学习,包括句子切分、单词切分、大小写转化、删除停用词、题干提取、词性还原。基本功能学习#句子切分,单词切分import nltka='i have a pen, i have a apple's=nltk.sent_tokenize(a)print (s)w=[]for i in s: for j in nltk.word_tokenize(i): ...

2019-10-09 16:40:26 917

原创 arp协议的学习记录

小白的arp协议的学习记录因为最初是用OneNote记录的所以直接使用链接。arp的捕获arp请求包和回应包的分析arp数据包编辑与捕获

2019-03-22 13:28:11 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除