栗子chestnut-CSDN博客

原创知乎爬虫二

爬虫目标本次爬虫需要从知乎的话题精华回答中爬取前1000个回答的问题。然后得到关注数最多的100个问题的url后，到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分：1.爬取精华回答页面，获取每个回答对应的问题的url。2.爬取上一步的问题页面获取问题的关注人数、评论数，用来选择最热门问题。3.爬取热门问题主页的前50%回答内容、回答获得的赞同数、回答时间、回...

2020-04-21 00:14:18 398

原创获取新闻联播文字稿

从tushare获取央视联播新闻稿数据联播新闻稿获取tushare实际上是一个支持金融分析的接口包，主要提供股票数据。在其提供的特色大数据中有新闻联播文字稿。2020年新冠疫情期间还添加了新冠肺炎感染人数、全球新冠疫情数据。代码import tushare as tsts.set_token('xxx1')pro = ts.pro_api('xxx1')df = pro.cctv_...

2020-04-20 23:55:56 1198

原创知乎动态数据加载爬虫

爬虫目标本次爬虫需要从知乎的话题新型冠状病毒肺炎的精华回答中爬取前100个回答的问题。然后得到<=100的问题的url后，到问题主页把问题下的50%的回答内容和作者信息爬取下来。本次爬虫主要分为四部分：1.爬取精华回答页面，获取每个回答对应的问题的url。2.爬取上一步的问题页面获取问题的关注人数、评论数，用来选择最热门问题。3.爬取热门问题主页的前50%回答内容、回答获得的赞同数...

2020-04-20 23:53:51 621

原创 Python文本分析及预处理

文本分析的基本功能学习，包括句子切分、单词切分、大小写转化、删除停用词、题干提取、词性还原。基本功能学习#句子切分，单词切分import nltka='i have a pen, i have a apple's=nltk.sent_tokenize(a)print (s)w=[]for i in s: for j in nltk.word_tokenize(i): ...

2019-10-09 16:40:26 917

原创 arp协议的学习记录

小白的arp协议的学习记录因为最初是用OneNote记录的所以直接使用链接。arp的捕获arp请求包和回应包的分析arp数据包编辑与捕获

2019-03-22 13:28:11 118

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 知乎爬虫二

原创 获取新闻联播文字稿

原创 知乎动态数据加载爬虫

原创 Python文本分析及预处理

原创 arp协议的学习记录

空空如也

空空如也

原创知乎爬虫二

原创获取新闻联播文字稿

原创知乎动态数据加载爬虫