你好星期一-CSDN博客

原创 ‘float‘ object has no attribute ‘decode‘

错误代码：weibo_df = pd.read_csv('/Users/dl/Desktop/情感分析论文/词云图/微博文本数据/原始数据/原数据-表格/微博文本内容.csv')print(weibo_df.head())在读取csv或者excel文件时出现报错：‘float‘ object has no attribute ‘decode‘解决方法：在read后面加上.astype(str)正确代码：weibo_df = pd.read_csv('/Users/dl/Desktop/情感分析

2022-04-14 17:10:43 894

原创 review

对于无法正确运行的源代码，切记要找到原始的源代码。不要用别人半路摘抄的不完整的片段。对于以下这种显示很多蓝色错误链接文件的情况，从一堆蓝色链接文件中找到自己python文件的链接，点击进行查看，不用管其他package的文件。不知道哪句话出现问题的时候，依次注释掉每句话，每注释掉一句话，进行一次运行，以排查错误源头。...

2022-04-02 15:53:18 166

原创 self._semlock = _multiprocessing.SemLock._rebuild(*state) FileNotFoundError: [Errno 2] No such file

错误方法： for topic in range(15): lda_model = gensim.models.LdaMulticore(corpus=corpus, num_topics=topic + 1, id2word=id2word, random_state=100,chunksize=100, passes=10, per_word_topics=True) model_list.append(lda_model) coherencemo

2022-04-01 21:49:00 2340 1

原创 ‘module‘ object is not callable (pprint)

错误原因：通常是包的导入错误或者导入不具体。错误导入方法：import pprint正确导入方法：from pprint import pprint

2022-04-01 21:33:46 736

原创 AttributeError: module ‘gensim.models‘ has no attribute ‘wrappers‘

错误提示：AttributeError: module 'gensim.models' has no attribute 'wrappers'错误原因：gensim版本过新，看到别人把版本改到了gensim3.8.3，或者把3.8.3版本里的wrappers复制到新版本中。但我下载不了3.8.3版本，所以下载了3.8.2版本，应该是3.8.3版本一下的都可以。正确修改方法：在command中pip3 install gensim==3.8.2...

2022-04-01 21:31:48 2779

原创 TypeError: object of type ‘module‘ has no len()

错误代码：if self.id2word is None: logger.warning("no word id mapping provided; initializing from corpus, assuming identity") self.id2word = utils.dict_from_corpus(corpus) self.num_terms = len(self.id2word)elif len(self.id2word) >0: self.num_te

2022-03-30 17:07:43 1223

原创 Requirement already satisfied:（已安装的包无法使用）

command 安装错误提示：Requirement already satisfied: pillow>=6.2.0 in /Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages (from matplotlib) (8.2.0)原因：此安装包已在错误提示的路径中存在。但在project运行的路径中不存在。路径错误。正确方法：修改project运行的路径。在下载包的时候指定projec

2022-03-30 11:38:45 6959 1

原创 process_big.py: error: the following arguments are required: dump_file, out_dir

错误代码：parser.add_argument('dump_file', help=('twitter downloader dump where each' ' line is a tweet in json format.')) parser.add_argument('out_dir', help=('output directory path where parsed'

2022-03-25 15:01:32 1020

原创 TypeError: module.init() takes at most 2 arguments (3 given)

错误代码：from tweepy.streaming import StreamListenerclass StdOutListener(StreamListener):# class StdOutListener(Listener): """ A listener handles tweets are the received from the stream. This is a basic listener that just prints received tweets to

2022-03-25 10:53:20 2536

原创 def _start(self, async): invalid synex

错误提示：def write(self, async): ^ SyntaxError: invalid syntax错误产生原因: python中把 async当成关键字了，关键字当作参数，python抛出异常.解决方法：找到错误所在文件，全局替换async为async1.

2022-03-25 10:49:05 1077

原创没有space.en或space.lang.en

pycharm中没有space.en或space.lang.en使用以下方法代替：import spacyspacy.load("en_core_web_sm")from spacy.lang.en import English

2022-03-16 20:35:54 149

原创对于pycharm中没有的包的处理——en_core_web_sm

对于pycharm中没有的包：preferences中没有en_core_web_sm自行在github中下载：https://github.com/explosion/spacy-models/releases/tag/en_core_web_sm-3.0.0在command（终端）中 pip /PATH/en_core_web_sm-3.0.0.tar.gz

2022-03-16 20:33:45 862

原创 LDA模型及Gibbs求解

LDA主题建模Gibbs采样求解参考文献：[1]鞠函函. 基于Word2vec的微博热点话题检测技术研究[D].西南石油大学,2019.DOI:10.27420/d.cnki.gxsyc.2019.000778.

2022-01-08 14:34:41 510

原创机器学习路线图

机器学习是一个庞大的家族体系，涉及众多算法，任务和学习理论，下图是机器学习的学习路线图。图中蓝色代表不同的学习理论，橙色代表任务，绿色代表方法。1、按任务类型分，机器学习模型可以分为回归模型、分类模型和结构化学习模型。回归模型又叫预测模型，输出是一个不能枚举的数值；分类模型又分为二分类模型和多分类模型，常见的二分类问题有垃圾邮件过滤，常见的多分类问题有文档自动归类；结构化学习模型的输出不再是一个固定长度的值，如图片语义分析，输出是图片的文字描述。2、从方法的角度分，可以分为线性模型和非线性模型，线性

2022-01-04 18:53:06 1637

原创利用NetworkX计算pagerank值

import networkx as nx# 创建有向图G = nx.DiGraph()#创建空图# 有向图之间边的关系edges = [("A", "B"), ("A", "C"), ("A", "D"), ("B", "A"), ("B", "D"), ("C", "A"), ("D", "B"), ("D", "C")]for edge in edges: G.add_edge(edge[0], edge[1])、pagerank_list = nx.pagerank

2021-12-17 21:44:57 1737

原创 lda2vec (4)——计算理论

word2vec中：上下文向量是枢轴词语的词向量LDA中：上下文向量是文档向量LDA2vec中：上下文向量=词向量+文档向量区分语料中随机抽取的词语和负采样词语的损失函数：损失函数最小的时候能够把语料中的词语与负采样词语区分开。cj代表上下文向量（context vectors），wj代表词向量，dj代表文档向量。...

2021-12-13 22:33:57 1792

原创 lda2vec (3)

在这里就不再进行翻译了，直接根据原文章用英文概述，仅对自己觉得重要的地方用中文提示自己。Global & localword2vec：At its heart, word2vec predicts locally: given a word it guesses neighboring words.In this example, word2vec predicts the other words in a sentence given the central pivot word ‘

2021-12-13 17:47:47 1463

原创 lda2vec (2)

LDA2vec分为两部分，一部分是利用skip-grams做词向量表示，另一部分是文档向量表示。1.词向量表示——skip-gram在扫描语料的时候，提取移动窗口内成对的枢轴词和目标词。每对中的枢轴词用来预测附近的目标词。每个枢轴词由一个固定长度的稠密分布式向量表示。如果这个枢轴词是German，被预测的相邻词就是French或Spanish。但是如果这个文档是关于航空的，我们就会创建一个与airline这个词语词向量相似的文档向量。然后我们不会再对单独预测German这类词，而是预测与German

2021-12-13 11:02:49 2128

原创 lda2vec （1）

lda2vec 是 word2vec 和 LDA 的扩展，它共同学习单词、文档和主题向量。lda2vec 专门在 word2vec 的 skip-gram 模型基础上建模，以生成单词向量。skip-gram 和 word2vec 本质上就是一个神经网络，通过利用输入单词预测周围上下文词语的方法来学习词嵌入。通过使用 lda2vec，我们不直接用单词向量来预测上下文单词，而是使用上下文向量来进行预测。该上下文向量被创建为两个其它向量的总和：单词向量和文档向量。单词向量由前面讨论过的 skip-gram w

2021-12-12 22:06:23 1764

原创自然语言处理回顾

这些天重新看了过去看过的有关于自然语言处理的内容，关注到很多之前没有注意到的，但现在看来很重要的要点，整理如下：1.LDA(潜在狄利克雷分配)：主题模型采用未标记文档的集合, 并尝试在该集合中查找结构或主题。主题模型通常假设单词的使用与主题的出现相关。训练LDA模型时, 首先要收集文档, 并且每个文档都由固定长度的矢量(单词袋)表示。 LDA是一种通用的机器学习(ML)技术, 这意味着它也可以用于其他无监督的ML问题, 其中输入是固定长度向量的集合, 目标是探索此数据的结构。要实现LDA模型

2021-12-12 14:25:59 346

原创初期对word2vec的改进方法+负采样注意事项

一、改进方法：将常见的单词组合（word pairs）或者词组作为单个“words”来处理。对高频次单词进行抽样来减少训练样本的个数。对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担。二、负采样方法负采样：只随机选择一部分negative words来更新对应的权重（一般选择5-20个negative words）如何选择negative words：使用“一元模型分布（uni

2021-12-09 21:39:39 667

原创 word2vec模型源码中的问题

word2vec模型处理中自己认为重要的两个要点：模型训练是以“行”为单位，如果语料文件每行存储一个句子，则训练时每行就处理一个句子。如果一个句子太长，就通过设置MAX_SENTENCE_LENGTH来设置句子长度的阈值，一行的长度超过MAX_SENTENCE_LENGTH就会自动截断。每个词对应一个样本，一个给定的行包含T个词，就可以得到T个训练样本。博主写的很好，详文请见楼下。参考文献：https://www.cnblogs.com/peghoty/p/3857839.htm

2021-12-08 22:31:46 258

原创 negative sampling 负采样算法

2021-12-08 17:54:49 324

转载基于negative sampling（负采样）的CBOW模型、skip-gram模型

一、基于negative sampling的CBOW模型（一）基于negative sampling的CBOW模型与基于hierarchical softmax的CBOW模型不同：基于negative sampling的模型采用随机负采样法计算概率，计算的是除词语w外的其他负采样词语的条件概率P(u|Content(w))相乘。基于hierarchical softmax的模型采用huffman树的二分类法计算概率，计算的是词语w的条件概率P(w|Content(w))，该条件概率等于huffman

2021-12-08 17:07:36 679

转载基于hierarchical softmax的skip-gram模型

参考文献：https://www.cnblogs.com/peghoty/p/3857839.html

2021-12-07 22:40:10 200

原创基于hierarchical softmax的CBOW模型

一、两种词向量：one-hot representationdistributed representation二、hierarchical softmax模型（一）CBOW模型概括：输入层：传入词w的前后c个词语的词向量，一共2c个词向量。投影层：将输入层的2c个向量求和累加，得到向量Xw。输出层：输出层对应一棵Huffman树。对于词典D中任意一个词语w,从根节点出发到最后的词语w的路径为Pw, 存在lw-1个分支。每一次分支就是一个二分类，分别记为正、负分类（正负对应左右

2021-12-07 22:18:05 499

转载 word2vec理论基础

word2vec的参考文献：https://zhuanlan.zhihu.com/p/26306795/

2021-12-06 20:43:13 320

转载多元logistic回归模型——spss步骤

多元：因变量为多分类变量；结果在三种及三种以上。如：机构养老、社区养老、居家养老。自变量：可以是分类变量或连续变量，建议是分类变量；协变量：必须是分类变量；案例：步骤：1.【分析】【回归】【多项logistic】，打开主面板—— 因变量、自变量分别按照箭头指示移入对应的变量框内，点击【参考类别】按钮，默认勾选【最后一个类别】。（指以因变量和自变量的最后一个分类水平为参照，用其他分类依次与之对比，考察不同水平间的倾向。）2.主面板中，点击【模型】，打开【多项logistic回归：模型】对话框，勾

2021-12-04 18:13:23 97146 4

原创二元logistic回归模型——spss步骤

二元：因变量为二分类变量，且两个分类整合在一起的概率为1.（有效/无效；是/否）分析——回归——二元logistic——结果作为因变量——自变量作为协变量分类——设置分类变量（非连续变量）——变化量、第一个保存——概率、组成员选项：霍斯默-莱梅肖拟合优度、Exp(B)置信区间——在每一个步骤结果分析：（1）看霍斯默检验的显著性：sig/p >0.05表示拟合良好。（2）方程中的变量:B——系数sig——p值——显著性Exp(B)——OR值——优势比（高出一个单位，发生的概率高出多少

2021-12-03 20:51:39 22615

原创二元logistic回归前的单因素分析

交叉表单因素分析对频数进行加权：data-weight cases(数据-加权个案）卡方检验：Analyze→Descriptive Statistics→Crosstabs，添加Row、Column，点击Statistics，选择Chi-square-Continue

2021-12-01 10:54:14 5508

原创 AttributeError: ‘str‘ object has no attribute ‘decode‘

原代码：def loadTxt(filenameTxt): txtList = [line.strip().decode('utf-8') for line in open(filenameTxt,'r').readlines()]#变成 unicode return txtList#unicode报错：AttributeError: ‘str‘ object has no attribute ‘decode‘解决方法: 将字节字符串解码def loadTxt(filename

2021-09-08 16:13:54 204

原创 word2vec参数

Word2vec训练中的参数：（1） sg=1是skip-gram算法，对低频词敏感，默认sg=0为CBOW算法，所以此处设置为1。（2） min_count是对词进行过滤，频率小于min-count的单词则会被忽视，默认值为5。（3） size是输出词向量的维数，即神经网络的隐藏层的单元数。值太小会导致词映射因为冲突而影响结果，值太大则会耗内存并使算法计算变慢，大的size需要更多的训练数据, 但是效果会更好，在本文中设置的size值为300维度。（4） window是句子中当前词与目标词之间的最

2021-07-28 11:21:57 5039

原创 AttributeError: ‘Word2Vec‘ object has no attribute ‘similarity‘

错误代码：y1 = model.similarity(u"新冠", u"疫情")print(y1)报错：AttributeError: 'Word2Vec' object has no attribute 'similarity'正确代码：y1 = model.wv.similarity(u"新冠", u"疫情")print(y1)修改方法：对照Gensim用户手册,找正确的参数引用形式。用户手册中使用most_similar的方法如下，所以也参照这个用法使用similarity了

2021-07-28 11:17:18 13325 4

空空如也

空空如也