- 博客(5)
- 资源 (9)
- 收藏
- 关注
原创 (数据分析)网课评论分析
本文通过爬取的数据,对<font color='bluee'>中国大学MOOC(icourse)、慕课网(imooc)、腾讯课堂(keqq)、网易云课堂(study163)</font>四个网课平台的课程信息及评论进行简要分析。同时,对数据分析的整体流程做一个总结。内容如有纰漏,敬请指出。
2020-12-27 15:15:31 16005 60
原创 (pandas)sort_index()与sort_values()的使用
在Series与DataFrame中数据的排序sort_index()方法在指定轴上根据索引进行排序sort_index(axis=0, ascending=True, inplace=True)axis:1轴,0轴(默认)。ascending:默认True升序,False降序。inplace:默认为False,删除重复项后返回副本。True,直接在原数据上删除重复项。# 初始的Series,DataFrameseries = pd.Series(np.arange(4), index=[
2020-12-22 22:16:05 1754
原创 使用gensim框架及Word2Vec词向量模型获取相似词
使用gensim框架及Word2Vec词向量模型获取相似词预备知识Word2Vec模型下载加载词向量模型预备知识gensim框架gensim是基于Python的一个框架,它不但将Python与Word2Vec做了整合,还提供了基于LSA、LDA、HDP的主体框架。Word2VecWord2Vec属于一种神经网络架构的概率语言模型两个重要模型CBOW模型:CBOW模型是Word2Vec最重要的模型,输入是周围词的词向量,输出是当前词的词向量。即通过周围词来预测当前词。Skip-Gram
2020-12-16 11:30:42 2577
原创 (pandas)评论数据清洗
(pandas)评论数据清洗1.空值处理2.数据去重3.定向剔除无用评论1.空值处理# 直接删除评论列中的空值(不包含空字符串)df = df.dropna(subset=['comment'])2.数据去重去重时最好把多列作为参照,不能只根据评论列,防止删除不同人写出的相同评论。# 根据用户id与comment两列作为参照,如存在用户id与comment同时相同,那么只保留最开始出现的。df.drop_duplicates(subset=['user_id', 'comment'],
2020-12-08 21:37:07 4669 4
原创 pd.merge()与pd.concat()的使用
(csv合并)pandas中merge()与concat()的使用merge()的使用:使用场景:两个DataFrame中某列或多列列名相同dic1 = {'name':['李四', '王五', '赵六'], 'age':[12, 13, 14]}dic2 = {'name':['张三', '李四', '王五'], 'class':['A1', 'A2', 'A3']}df1 = pd.DataFrame(dic1)df2 = pd.DataFrame(dic2)''' name
2020-12-07 17:12:06 1781
文件一键整理(带撤销按钮).zip
2021-08-26
最新全国大学基本信息.csv
2021-08-24
图片批量添加水印.zip
2021-08-20
途牛旅游网游记.csv
2021-08-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人