自然语言处理
文章平均质量分 77
自然语言处理(NLP)就是在机器语言和人类语言之间进行“翻译”,以实现人机交流的目的。自然语言处理包含了语音识别,语义理解,机器语言转换成人类自然语言。
Wency(王斯-CUEB)
博士阶段的学术小白,致力于编程技能与学术应用的提升。本博客记录Python、R、Matlab等语言学习心得,分享编程BUG解决策略及电脑使用技巧,助力学术研究。期待与您共同进步。
展开
-
关于Grok的一些看法
想下载本地跑之前先看一下配置要求,跑这玩意至少需要8个H100(能不能跑起来还不好说),8个H100就得200万了。原创 2024-03-20 12:14:47 · 223 阅读 · 0 评论 -
《R语言与数据挖掘》③-①使用R语言进行中文分词
RWordseg包文本分词library(rJava)library(Rwordseg)文本分词text = “今天天气真好呀,好想出去玩”segmentCN(text) # 对"雷克萨斯品牌"进行分词insertWords(c(“气”)) # 导入词汇segmentCN(text) # 导入词汇后再次分词deleteWords(c(“气”)) # 删除词汇segmentCN(text) # 删除词汇后再次分词载入词典并进行文本分词词典下载链接:http://pinyin.原创 2021-12-13 15:08:09 · 1927 阅读 · 0 评论 -
【NLP】什么是自然语言处理
前面写的话扎实的基础能力,才可能具备创造力。建立自己的NLP知识体系。如果没有学习过这些《统计学习方法》李航《机器学习》周志华https://github.com/hadrienj/deepLearningBook-Noteshttps://esl.hohoweiya.xyz/https://github.com/ctgk/PRMLhttps://mqshen.gitbooks.io/prml/content/《程序员的数学:概率统计》《程序员的数学:线性代数》《动手深度学习》pyto原创 2021-08-05 00:19:34 · 427 阅读 · 0 评论 -
泰迪杯C题第三问[文本有效性分析] (1)
导入库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 中文分词import pandas as pd import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示库读入数据jingqu = pd.read_excel(r'F:\桌面\研原创 2021-06-03 22:18:13 · 2260 阅读 · 13 评论 -
【NLP基础中文处理】jieba分词初级的应用,以及统计《茅山后裔》的主要人物
导入数据# jieba分词import jieba # jieba中文分词import re # 正则化表达有这么一段文字content = '''比较好的考研das教学视频,英语推荐朱伟的恋恋ew有词,政治推荐肖秀.//荣的,高数推荐张[''。。宇的'''word_sep = jieba.cut(content)print(list(word_sep))['比较', '好', '的', '考研', 'das', '教学', '视频', ',', '\n', '英语', '推荐原创 2021-06-02 12:03:51 · 622 阅读 · 0 评论 -
【自然语言处理-2】word2vec词嵌入算法“男人”+“女人”=“爱情的坟墓”
词嵌入算法通俗易懂的理解:词嵌入算法就是使用一个低维度的向量来表示一个词,并且距离相近的向量在实际的词含义上也是相近的。比如:“男人”的向量与“女人”向量的距离,相比“男人”向量与“游戏”向量的距离,谁更近?对我来说,“电子竞技不存在爱情”,所以后者的距离比前者更近。*“男人词向量”+“女人词向量”≈“爱情的坟墓” “男人词向量”+“女人词向量”\approx“爱情的坟墓” “男人词向量”+“女人词向量”≈“爱情的坟墓”这使得词向量具有数据运算功能。独热编码那么问题来了,词语怎么怎么转换原创 2021-04-29 17:13:20 · 745 阅读 · 0 评论 -
【自然语言处理-1】TF-IDF简单最实用的关键词提取技术
自然语言处理历史阶段时间发展意义早期阶段1956 年以前香农曾提出过概率模型来描述语言,乔姆斯基提出了基于规则的上下文无关文法。阶段还没有太明确的产出,只有一些简单的拼凑快速发展1957-1970两大派别分别从概率模型和规则模型分别进行了深入的研究,使用规则构建机器翻译已经小有成效瓶颈期1971-1993研究停滞,产出的隐马尔科夫模型(HMM)再次爆发1994 年之后运力设备提升,互联网崛起,飞速发展TF-IDFTF-IDF(Term fre原创 2021-04-29 15:52:44 · 1452 阅读 · 0 评论