- 博客(15)
- 收藏
- 关注
原创 sklearn文本转tfidf
docListfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.cluster import KMeans# 第一步:将词转为TF-IDF的特征矩阵tfidf_vectorizer = TfidfVectorizer()tfidf_matrix = tfidf_vectorizer.fit_transform(docList)# 查看向量tfidf_matrix.toarray()# 查看词
2020-12-27 21:09:46 302
转载 dictionary.id2token为空?
转: Gensim保存的字典没有id2token不需要用dictionary.id2token[1613],可以直接使用dictionary[1613]
2020-12-19 17:39:20 856 2
原创 python画词云图、词云图模糊不清
scale 参数可以调节图片清晰度from wordcloud import WordCloudfrom PIL import Image # 读取图片text_cut = 'recommend go use money someth 3 button stop work month use...' # text_cut的格式background = Image.open("../图片/微波炉.png")graph = np.array(ba
2020-12-19 16:36:26 5625 1
原创 matplotlib画子图、调整子图间距、设置子图、大图标题 画箱线图; 子图标题位置
plt.tight_layout() 自动调整子图间距调整前:调整后fig = plt.figure(figsize=(12,5))for i in range(5): ax = fig.add_subplot(5, 1, i+1) # 3行3列的第一个位置 word_pro = lda.get_topic_terms(i, topn=10000) word_pro_x = list(map(lambda x: x[0],word_
2020-12-19 11:25:09 18745 3
原创 python3.6- shape mismatch: objects cannot be broadcast to a single shape
修改后
2020-12-15 23:09:25 1581
原创 dataframe时间聚合季度月份
df_m.resample(rule= 'Q', on='review_date').agg({ 'open':'first', 'high':'max',})参数:rule: Q 季度 M月份 W星期on: 基于哪列时间数据聚合
2020-12-15 12:53:07 1572
原创 dataframe 转时间戳
from datetime import datetime# review_date 转为时间戳形式def time2stamp(cmnttime): #转时间戳函数 cmnttime=datetime.strptime(cmnttime,'%Y-%m-%d %H:%M:%S') stamp=int(datetime.timestamp(cmnttime)) return stampdf_drop_m['review_date'].apply(lambda x: time2
2020-12-14 13:00:19 1663
原创 nltk包下载,放置目录
参考:[nltk_data] Error loading stopwords: urlopen error [Errno 11004] 解决办法手动下载数据,解决nltk.download(‘stopwords‘)问题
2020-12-13 19:15:45 1538
原创 《应用回归分析》何晓群 最新版数据下载
找了很久没找到,其实在官网上可以很方便下载。http://www.crup.com.cn/Book/List?keyword=%E5%BA%94%E7%94%A8%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90
2020-12-08 13:22:32 5272 5
原创 SPSS如何安装PLS(偏最小二乘回归)
1. 查看SPSS是否自带python2比较高的SPSS会自带python2,打开SPSS所在文件(我的SPSS在D:\software\SPSS)1.1 如果不自带python文件进入网址下载python2.7 http://apache.apooloo.cn/#/down/b86a35de-d3a2-11ea-8c0f-00e04c450639这个网站下载比较快,或者在官网下载也行。下载完安装一下。并记住安装路径,假设你的安装路径为C:\python27现在python2下载好了
2020-12-08 09:27:50 6063 9
原创 如何修改jupyter代码行间距
打开文件D:\software\Anaconda3\Lib\site-packages\notebook\static\style\style.min.css 修改这一行(这里的行数和你的不一样,因为我自己修改过该文件)改成 1.5em 行距就变宽了。效果图:
2020-12-06 18:37:53 2791
原创 dataframe不用loc/iloc选取索引
print(df2['two': 'three'])[out]: char int floattwo b 20 2.2three c 30 3.3摘自:https://blog.csdn.net/fantine_deng/article/details/105130904
2020-12-02 23:30:49 460
原创 pip install pulp出错
报错:Could not find a version that satisfies the requirement pulp (from versions:…参考:一、https://www.jianshu.com/p/3de67550cea6打开:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pulp找到pulp 下载,下图中表示python37版本,windows64位。查看自己python的版本比如我把pulp…whl文件下载...
2020-12-02 14:50:16 2631
原创 python dataframe series 自定义排序规则
思路:先新增一列,再按照这一列排序。dic = {'大一':1,'大二':2,'大三':3,'大四':4}df.xy = df.xx.apply(lambda x: dic[x])df.sore_values(by='xy') # 这时就按照顺序排了参考:https://www.jianshu.com/p/d56bfa6813fe
2020-12-01 00:36:35 1238
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人