自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 pandas

pandas

2022-10-30 22:15:47 742 1

原创 python中excel表格的读取与创建

excel表格的读取与创建

2022-10-11 11:49:49 837

原创 python的模块与文件

python模块与文件

2022-10-09 22:47:04 794

原创 python流程控制

python的循环和异常

2022-10-09 19:41:01 279

原创 python基础语法

python复盘重点

2022-10-09 16:44:30 354

翻译 macos中mysql配置环境

macos中mysql配置环境

2022-09-26 18:39:59 655

原创 macos系统终端命令失效

macos系统终端命令失效

2022-09-26 18:04:20 1132

原创 ‘float‘ object has no attribute ‘decode‘

错误代码:weibo_df = pd.read_csv('/Users/dl/Desktop/情感分析论文/词云图/微博文本数据/原始数据/原数据-表格/微博文本内容.csv')print(weibo_df.head())在读取csv或者excel文件时出现报错:‘float‘ object has no attribute ‘decode‘解决方法:在read后面加上.astype(str)正确代码:weibo_df = pd.read_csv('/Users/dl/Desktop/情感分析

2022-04-14 17:10:43 834

原创 review

对于无法正确运行的源代码,切记要找到原始的源代码。不要用别人半路摘抄的不完整的片段。对于以下这种显示很多蓝色错误链接文件的情况,从一堆蓝色链接文件中找到自己python文件的链接,点击进行查看,不用管其他package的文件。不知道哪句话出现问题的时候,依次注释掉每句话,每注释掉一句话,进行一次运行,以排查错误源头。...

2022-04-02 15:53:18 110

原创 self._semlock = _multiprocessing.SemLock._rebuild(*state) FileNotFoundError: [Errno 2] No such file

错误方法: for topic in range(15): lda_model = gensim.models.LdaMulticore(corpus=corpus, num_topics=topic + 1, id2word=id2word, random_state=100,chunksize=100, passes=10, per_word_topics=True) model_list.append(lda_model) coherencemo

2022-04-01 21:49:00 1995

原创 ‘module‘ object is not callable (pprint)

错误原因:通常是包的导入错误或者导入不具体。错误导入方法:import pprint正确导入方法:from pprint import pprint

2022-04-01 21:33:46 657

原创 AttributeError: module ‘gensim.models‘ has no attribute ‘wrappers‘

错误提示:AttributeError: module 'gensim.models' has no attribute 'wrappers'错误原因:gensim版本过新,看到别人把版本改到了gensim3.8.3,或者把3.8.3版本里的wrappers复制到新版本中。但我下载不了3.8.3版本,所以下载了3.8.2版本,应该是3.8.3版本一下的都可以。正确修改方法:在command中pip3 install gensim==3.8.2...

2022-04-01 21:31:48 2622

原创 TypeError: object of type ‘module‘ has no len()

错误代码:if self.id2word is None: logger.warning("no word id mapping provided; initializing from corpus, assuming identity") self.id2word = utils.dict_from_corpus(corpus) self.num_terms = len(self.id2word)elif len(self.id2word) >0: self.num_te

2022-03-30 17:07:43 1071

原创 Requirement already satisfied:(已安装的包无法使用)

command 安装错误提示:Requirement already satisfied: pillow>=6.2.0 in /Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages (from matplotlib) (8.2.0)原因:此安装包已在错误提示的路径中存在。但在project运行的路径中不存在。路径错误。正确方法:修改project运行的路径。在下载包的时候指定projec

2022-03-30 11:38:45 4990 1

原创 process_big.py: error: the following arguments are required: dump_file, out_dir

错误代码:parser.add_argument('dump_file', help=('twitter downloader dump where each' ' line is a tweet in json format.')) parser.add_argument('out_dir', help=('output directory path where parsed'

2022-03-25 15:01:32 937

原创 TypeError: module.__init__() takes at most 2 arguments (3 given)

错误代码:from tweepy.streaming import StreamListenerclass StdOutListener(StreamListener):# class StdOutListener(Listener): """ A listener handles tweets are the received from the stream. This is a basic listener that just prints received tweets to

2022-03-25 10:53:20 2447

原创 def _start(self, async): invalid synex

错误提示:def write(self, async): ^ SyntaxError: invalid syntax错误产生原因: python中把 async当成关键字了,关键字当作参数,python抛出异常.解决方法:找到错误所在文件,全局替换async为async1.

2022-03-25 10:49:05 978

原创 没有space.en或space.lang.en

pycharm中没有space.en或space.lang.en使用以下方法代替:import spacyspacy.load("en_core_web_sm")from spacy.lang.en import English

2022-03-16 20:35:54 113

原创 对于pycharm中没有的包的处理——en_core_web_sm

对于pycharm中没有的包:preferences中没有en_core_web_sm自行在github中下载:https://github.com/explosion/spacy-models/releases/tag/en_core_web_sm-3.0.0在command(终端)中 pip /PATH/en_core_web_sm-3.0.0.tar.gz

2022-03-16 20:33:45 757

原创 LDA模型及Gibbs求解

LDA主题建模Gibbs采样求解参考文献:[1]鞠函函. 基于Word2vec的微博热点话题检测技术研究[D].西南石油大学,2019.DOI:10.27420/d.cnki.gxsyc.2019.000778.

2022-01-08 14:34:41 458

原创 机器学习路线图

机器学习是一个庞大的家族体系,涉及众多算法,任务和学习理论,下图是机器学习的学习路线图。图中蓝色代表不同的学习理论,橙色代表任务,绿色代表方法。1、按任务类型分,机器学习模型可以分为回归模型、分类模型和结构化学习模型。回归模型又叫预测模型,输出是一个不能枚举的数值;分类模型又分为二分类模型和多分类模型,常见的二分类问题有垃圾邮件过滤,常见的多分类问题有文档自动归类;结构化学习模型的输出不再是一个固定长度的值,如图片语义分析,输出是图片的文字描述。2、从方法的角度分,可以分为线性模型和非线性模型,线性

2022-01-04 18:53:06 1356

原创 利用NetworkX计算pagerank值

import networkx as nx# 创建有向图G = nx.DiGraph()#创建空图# 有向图之间边的关系edges = [("A", "B"), ("A", "C"), ("A", "D"), ("B", "A"), ("B", "D"), ("C", "A"), ("D", "B"), ("D", "C")]for edge in edges: G.add_edge(edge[0], edge[1])、pagerank_list = nx.pagerank

2021-12-17 21:44:57 1580

原创 lda2vec (4)——计算理论

word2vec中:上下文向量是枢轴词语的词向量LDA中:上下文向量是文档向量LDA2vec中:上下文向量=词向量+文档向量区分语料中随机抽取的词语和负采样词语的损失函数:损失函数最小的时候能够把语料中的词语与负采样词语区分开。cj代表上下文向量(context vectors),wj代表词向量,dj代表文档向量。...

2021-12-13 22:33:57 1692

原创 lda2vec (3)

在这里就不再进行翻译了,直接根据原文章用英文概述,仅对自己觉得重要的地方用中文提示自己。Global & localword2vec:At its heart, word2vec predicts locally: given a word it guesses neighboring words.In this example, word2vec predicts the other words in a sentence given the central pivot word ‘

2021-12-13 17:47:47 1404

原创 lda2vec (2)

LDA2vec分为两部分,一部分是利用skip-grams做词向量表示,另一部分是文档向量表示。1.词向量表示——skip-gram在扫描语料的时候,提取移动窗口内成对的枢轴词和目标词。每对中的枢轴词用来预测附近的目标词。每个枢轴词由一个固定长度的稠密分布式向量表示。如果这个枢轴词是German,被预测的相邻词就是French或Spanish。但是如果这个文档是关于航空的,我们就会创建一个与airline这个词语词向量相似的文档向量。然后我们不会再对单独预测German这类词,而是预测与German

2021-12-13 11:02:49 1999

原创 lda2vec (1)

lda2vec 是 word2vec 和 LDA 的扩展,它共同学习单词、文档和主题向量。lda2vec 专门在 word2vec 的 skip-gram 模型基础上建模,以生成单词向量。skip-gram 和 word2vec 本质上就是一个神经网络,通过利用输入单词预测周围上下文词语的方法来学习词嵌入。通过使用 lda2vec,我们不直接用单词向量来预测上下文单词,而是使用上下文向量来进行预测。该上下文向量被创建为两个其它向量的总和:单词向量和文档向量。单词向量由前面讨论过的 skip-gram w

2021-12-12 22:06:23 1599

原创 自然语言处理回顾

这些天重新看了过去看过的有关于自然语言处理的内容,关注到很多之前没有注意到的,但现在看来很重要的要点,整理如下:1.LDA(潜在狄利克雷分配):主题模型采用未标记文档的集合, 并尝试在该集合中查找结构或主题。主题模型通常假设单词的使用与主题的出现相关。训练LDA模型时, 首先要收集文档, 并且每个文档都由固定长度的矢量(单词袋)表示。 LDA是一种通用的机器学习(ML)技术, 这意味着它也可以用于其他无监督的ML问题, 其中输入是固定长度向量的集合, 目标是探索此数据的结构。要实现LDA模型

2021-12-12 14:25:59 237

原创 初期对word2vec的改进方法+负采样注意事项

一、改进方法:将常见的单词组合(word pairs)或者词组作为单个“words”来处理。对高频次单词进行抽样来减少训练样本的个数。对优化目标采用“negative sampling”方法,这样每个训练样本的训练只会更新一小部分的模型权重,从而降低计算负担。二、负采样方法负采样:只随机选择一部分negative words来更新对应的权重(一般选择5-20个negative words)如何选择negative words:使用“一元模型分布(uni

2021-12-09 21:39:39 546

原创 word2vec模型源码中的问题

word2vec模型处理中自己认为重要的两个要点:模型训练是以“行”为单位,如果语料文件每行存储一个句子,则训练时每行就处理一个句子。如果一个句子太长,就通过设置MAX_SENTENCE_LENGTH来设置句子长度的阈值,一行的长度超过MAX_SENTENCE_LENGTH就会自动截断。每个词对应一个样本,一个给定的行包含T个词,就可以得到T个训练样本。博主写的很好,详文请见楼下。参考文献:https://www.cnblogs.com/peghoty/p/3857839.htm

2021-12-08 22:31:46 216

原创 negative sampling 负采样算法

2021-12-08 17:54:49 231

转载 基于negative sampling(负采样)的CBOW模型、skip-gram模型

一、基于negative sampling的CBOW模型(一)基于negative sampling的CBOW模型与基于hierarchical softmax的CBOW模型不同:基于negative sampling的模型采用随机负采样法计算概率,计算的是除词语w外的其他负采样词语的条件概率P(u|Content(w))相乘。基于hierarchical softmax的模型采用huffman树的二分类法计算概率,计算的是词语w的条件概率P(w|Content(w)),该条件概率等于huffman

2021-12-08 17:07:36 554

转载 基于hierarchical softmax的skip-gram模型

参考文献:https://www.cnblogs.com/peghoty/p/3857839.html

2021-12-07 22:40:10 151

原创 基于hierarchical softmax的CBOW模型

一、两种词向量:one-hot representationdistributed representation二、hierarchical softmax模型(一)CBOW模型概括:输入层:传入词w的前后c个词语的词向量,一共2c个词向量。投影层:将输入层的2c个向量求和累加,得到向量Xw。输出层:输出层对应一棵Huffman树。对于词典D中任意一个词语w,从根节点出发到最后的词语w的路径为Pw, 存在lw-1个分支。每一次分支就是一个二分类,分别记为正、负分类(正负对应左右

2021-12-07 22:18:05 385

转载 word2vec理论基础

word2vec的参考文献:https://zhuanlan.zhihu.com/p/26306795/

2021-12-06 20:43:13 287

转载 多元logistic回归模型——spss步骤

多元:因变量为多分类变量;结果在三种及三种以上。如:机构养老、社区养老、居家养老。自变量:可以是分类变量或连续变量,建议是分类变量;协变量:必须是分类变量;案例:步骤:1.【分析】【回归】【多项logistic】,打开主面板—— 因变量、自变量分别按照箭头指示移入对应的变量框内,点击【参考类别】按钮,默认勾选【最后一个类别】。(指以因变量和自变量的最后一个分类水平为参照,用其他分类依次与之对比,考察不同水平间的倾向。)2.主面板中,点击【模型】,打开【多项logistic回归:模型】对话框,勾

2021-12-04 18:13:23 81337 3

原创 二元logistic回归模型——spss步骤

二元:因变量为二分类变量,且两个分类整合在一起的概率为1.(有效/无效;是/否)分析——回归——二元logistic——结果作为因变量——自变量作为协变量分类——设置分类变量(非连续变量)——变化量、第一个保存——概率、组成员选项:霍斯默-莱梅肖拟合优度、Exp(B)置信区间——在每一个步骤结果分析:(1)看霍斯默检验的显著性:sig/p >0.05表示拟合良好。(2)方程中的变量:B——系数sig——p值——显著性Exp(B)——OR值——优势比(高出一个单位,发生的概率高出多少

2021-12-03 20:51:39 20217

原创 二元logistic回归前的单因素分析

交叉表单因素分析对频数进行加权:data-weight cases(数据-加权个案)卡方检验:Analyze→Descriptive Statistics→Crosstabs,添加Row、Column,点击Statistics,选择Chi-square-Continue

2021-12-01 10:54:14 5238

原创 AttributeError: ‘str‘ object has no attribute ‘decode‘

原代码:def loadTxt(filenameTxt): txtList = [line.strip().decode('utf-8') for line in open(filenameTxt,'r').readlines()]#变成 unicode return txtList#unicode报错:AttributeError: ‘str‘ object has no attribute ‘decode‘解决方法: 将字节字符串解码def loadTxt(filename

2021-09-08 16:13:54 166

原创 word2vec参数

Word2vec训练中的参数:(1) sg=1是skip-gram算法,对低频词敏感,默认sg=0为CBOW算法,所以此处设置为1。(2) min_count是对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。(3) size是输出词向量的维数,即神经网络的隐藏层的单元数。值太小会导致词映射因为冲突而影响结果,值太大则会耗内存并使算法计算变慢,大的size需要更多的训练数据, 但是效果会更好,在本文中设置的size值为300维度。(4) window是句子中当前词与目标词之间的最

2021-07-28 11:21:57 4832

原创 AttributeError: ‘Word2Vec‘ object has no attribute ‘similarity‘

错误代码:y1 = model.similarity(u"新冠", u"疫情")print(y1)报错:AttributeError: 'Word2Vec' object has no attribute 'similarity'正确代码:y1 = model.wv.similarity(u"新冠", u"疫情")print(y1)修改方法:对照Gensim用户手册,找正确的参数引用形式。用户手册中使用most_similar的方法如下,所以也参照这个用法使用similarity了

2021-07-28 11:17:18 12806 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除