cutercorley
码龄3年
  • 826,227
    被访问
  • 300
    原创
  • 825
    排名
  • 4,778
    粉丝
关注
提问 私信

个人简介:本人目前某双一流学校电子信息专业硕一学生,热爱IT,正在学习自己感兴趣的方向,跟导师做社区发现和区块链,自己在自学自然语言处理,希望以后从事NLP相关工作,在这个领域开创出属于自己的一片天地,挑战自己、战胜自己,有志同道合的伙伴可以一起哦。

  • 加入CSDN时间: 2019-05-28
博客简介:

CUFEECR的博客

博客描述:
记录项目实战、学习笔记、经验技巧、异常处理等,在学习和记录中进步。
查看详细资料
  • 6
    领奖
    总分 2,098 当月 87
个人成就
  • 获得3,049次点赞
  • 内容获得1,563次评论
  • 获得6,933次收藏
创作历程
  • 22篇
    2022年
  • 51篇
    2021年
  • 178篇
    2020年
  • 49篇
    2019年
成就勋章
TA的专栏
  • 轻松入门自然语言处理系列
    付费
    14篇
  • Python全栈
    付费
    130篇
  • uni-app社区交友APP开发实战
    付费
    20篇
  • 机器学习实战
    3篇
  • 算法与数据结构全阶班-左程云版
    5篇
  • 电脑实用技巧
    1篇
  • 大数据开发基础入门与项目实战
    18篇
  • 大数据开发实战
    1篇
  • 数据结构与算法练习(Python版)
    2篇
  • Python Web开发实战
    17篇
  • IT杂谈
    3篇
  • 移动应用开发
    15篇
  • 数据分析
    14篇
  • 面试集锦-屡败屡战
    1篇
  • C语言实战
    10篇
  • C语言学习
    12篇
  • Python爬虫
    8篇
  • Python实战
    13篇
  • 数据库编程
    3篇
  • Liunx开发
    6篇
  • 前端开发
    2篇
  • Java专栏
    2篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习自然语言处理知识图谱pytorch语言模型transformerbert图像处理nlpscikit-learn
了解更多
本人非科班计算机专业本科毕业生,热爱Python、爬虫、数据分析和大数据等技术领域,愿与各位读者大佬一起交流,建了一个QQ交流群,用于交流和分享学习资料,有很多志同道合的朋友,可以点击 Python极客部落963624318 或扫码进群: Python极客部落群聊二维码
友情链接
(1)点击访问 helloworld开发者社区,我们立志做有特色的技术交流社区,包括技术交流、知识分享和方案专栏等功能特色,目前刚起步,希望各位大佬访问发文,也可以指出bug和改进。还可以点击 https://www.helloworld.net或扫码入群即可交流: https://www.helloworld.net
(2)给大家分享一个在线笔记平台,可点击 我来 或扫码: https://www.wolai.com/signup?invitation=SWEW7UI 注册使用,包括了笔记书写、团队协作、计划制定等多功能,同时支持Windows、Mac、Android和iOS等多端同步,同时格式美丽,入手宜早不宜迟。
大佬推荐
谙忆:程序编程之旅
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

轻松入门自然语言处理系列 09 词向量技术

本文主要介绍了词向量技术:词向量基础,包含单词的表示、从独热编码到分布式表示和词向量的训练;SkipGram模型详解,包含训练词向量的思路、SkipGram的目标函数和SkipGram的负采样;其他词向量技术,包含矩阵分解法、GloVe向量、高斯词嵌入(Gaussian Embedding)和词向量总结;论文解读,基于SkipGram的Airbnb房屋推荐《Real-time Personalization using Embeddings for Search Ranking at Airbnb》。
原创
发布博客 2022.05.22 ·
111 阅读 ·
0 点赞 ·
0 评论

轻松入门自然语言处理系列 项目1 使用豆瓣评论进行情感预测

本文主要介绍了基于豆瓣评论的情感预测,对给定的电影评论判断情感为积极还是消极:项目概况,包含项目描述、数据描述和项目框架;核心技术,包含中文分词、TF-IDF、Word2vec、BERT Embedding和句子向量;项目实施,包含读取数据并进行数据预处理、文本处理、划分数据集、文本的向量化、模型训练和评估和实验结果;项目总结,包含数据标签分布情况、句子向量处理、模型融合。本文基于词向量来判断句子的情感,整个项目过程,从数据预处理、模型建立和训练预测都部分的质量都关系到项目的熬过,因此每一步都要做好。
原创
发布博客 2022.05.18 ·
71 阅读 ·
1 点赞 ·
2 评论

轻松入门自然语言处理系列 07 文本表示

本文主要介绍了文本表示:文本表示基础,包含单词的表示(独热编码和词向量)、句子的表示(Boolean Vector、Count Vector)和tf-idf向量(文档中单词的频率与逆文本频率);文本相似度,包括欧氏距离(距离越大相似度越小、距离越小相似度越大)、余弦相似度(既衡量了向量的大小,又衡量了向量的方向);词向量基础,包含单词之间的相似度(独热编码存在稀疏性,不能计算相似度)、词向量基础(一种分布式的表示方式,用来表示单词的含义,其质量取决于词向量训练模型)和句子向量(可以对单词向量取平均)。
原创
发布博客 2022.05.06 ·
213 阅读 ·
0 点赞 ·
0 评论

轻松入门自然语言处理系列 专题3 中文文本处理

本文主要介绍了中文文本处理:中文文本处理流程,包含文本数据准备、数据清洗(1.正则表达式,2.全角与半角的转化,3.处理表情字符,4.繁体中文与简体中文的转换,5.大小写数字和大小写字母的统一,除去数据中的非文本部分,包含HTML标签、emoji的处理、正则表达式的使用等)、文本分词、文本分析(词频统计、TF-IDF等);中文文本预处理案例,包含文本数据准备、数据清洗(1.全角与半角转化,2.大小写转化,3.去除表情字符,4.正则表达式,5.中文简体和繁体的转换)、文本分词和去掉停用词和文本分析举例。
原创
发布博客 2022.04.24 ·
213 阅读 ·
0 点赞 ·
0 评论

轻松入门自然语言处理系列 06 文本处理

本文主要讲解了NLP任务中的上游任务文本处理:文本分析流程与分词,包括文本分析流程(包括原始文本、分词、清洗、标准化、特征提取和建模)、分词工具的使用(主要针对中文,包含jieba、snownlp、LTP、HanLP等)、最大匹配算法、考虑语义的一种分词方法;停用词与词的标准化,包含词的过滤和词的标准化,过滤单词有助于减小词库的大小、提高训练的效率,词的标准化有2种算法,为Stemming和Lemmazation;拼写纠错,包含拼写纠错(包含拼写错误和语法错误两类)和循环词库的问题及利用编辑距离改进。
原创
发布博客 2022.04.18 ·
149 阅读 ·
1 点赞 ·
2 评论

轻松入门自然语言处理系列 专题2 Beating Kaggle the Easy Way——For Beginners

本文主要介绍了针对初学者轻松战胜Kaggle的方法:数据科学流程,包括EDA(Exploratory Data Analysis)、Data Preprocessing、Feature Engineering(包含特征选择和特征编码)、Model Selection、Ensemble Generation集成(Bagging和Boosting)等过程;泰坦尼克号案例,主要任务是根据乘客的数据(包含了性别、票类、年龄等特征)来预测用户是否幸存,包含了数据预览、数据预处理、模型训练、预测并保存结果等过程。
原创
发布博客 2022.04.10 ·
146 阅读 ·
0 点赞 ·
0 评论

轻松入门自然语言处理系列 自然语言处理基础答疑和案例

本文主要介绍了自然语言处理基础答疑和案例:在真实的建模场景中,如何能给模型加入先验知识,包括(1)借助预训练模型,把网络的weight替换成一个在另外一个任务上pretrain好的模型weight,而不是选择随机权重作为初始权重;(2)借助输入,借助输入其实就是借助人类的先验知识;(3)借助模型设计,使用深度网络结构本身就是使用了先验知识,是把数据结构用所构造的深度网络来表达;(4)借助特征工程的思想,明确且直观地将人类的先验知识进行表达。算法设计问题,和具体业务相关,对业务的理解越深入,设计越合理。
原创
发布博客 2022.04.09 ·
982 阅读 ·
0 点赞 ·
0 评论

Jupyter Lab设置切换虚拟环境

在进行数据科学任务时,一般会用到交互式开发环境,即Jupyter Notebook,Jupyter lab是Jupyter Notebook的升级版,功能更强大、更好用,但是默认情况下,是不能切换虚拟环境的,只有自带的主环境,对应于conda中的base,而无法显示已经创建好的虚拟环境,此时可以按照以下步骤配置:(1)创建虚拟环境;(2)激活进入虚拟环境;(3)将虚拟环境写入Jupyter的kernel中;(4)在Jupyter Lab中确认,刷新Jupyter Lab的页面,即可查看和切换虚拟环境。
原创
发布博客 2022.04.06 ·
627 阅读 ·
1 点赞 ·
0 评论

轻松入门自然语言处理系列 05 机器学习基础

本文主要介绍了机器学习基础:理解朴素贝叶斯,包括初试朴素贝叶斯等;朴素贝叶斯的训练,包括计算单词的概率等;朴素贝叶斯的优化,包括朴素贝叶斯的最大似然估计、带限制的优化等;认识和理解决策树,包括决策树的应用、决策树的形态与决策边界等;决策树中的不确定性,包括好的特征、信息熵不确定性等;决策树的过拟合,包括决策树表现与节点数目之间的关系等;集成模型随机森林,包括集成模型概念等;随机森林与方差分析,包括方差和稳定性、方差和稳定性举例等;随机森林的训练,包括核心思想和构造等;随机森林的过拟合,包括参数和案例。
原创
发布博客 2022.04.01 ·
1338 阅读 ·
1 点赞 ·
0 评论

轻松入门自然语言处理系列 04 模型的泛化

本文主要介绍了模型的泛化:什么是过拟合,包括逻辑回归参数、数据线性可分的情况、控制参数的大小和过拟合概念;如何防止过拟合,包括模型的泛化能力、模型的过拟合、模型复杂度与过拟合和正则的作用;L1与L2正则,包括常见的2种正则、L1和L2正则的本质、L1的不足之处和交叉验证;正则与先验的关系,包括最大后验估计、先验与正则之间的关系和最大后验趋近于最大似然;案例之LR中的调参,包括常见模型的超参数、GridSearchCV的使用和逻辑模型调参。过拟合是机器学习中一个常见的现象,需要防止以提升模型的泛化能力。
原创
发布博客 2022.03.30 ·
190 阅读 ·
1 点赞 ·
0 评论

轻松入门自然语言处理系列 专题1 AI工程师面试必备考题之关于逻辑回归的一切

本文主要介绍了AI工程师面试必备考题之关于逻辑回归的一切:逻辑回归总结,包括逻辑回归的概念、作用、假设;面试题,包括LR主要解决什么问题、目的是什么,LR推导,LR的求解方法,多分类问题如何解决,线性回归与逻辑回归的区别,特征的选择,如何解决过拟合现象,什么是特征的离散化和特征交叉、逻辑回归对特征进行离散化的原因,逻辑回归的特征系数的绝对值是否可以认为是特征的重要性,数据归一化对逻辑回归起到的作用,逻辑模型的优缺点,逻辑回归与MLP的关系。LR是最基本、最重要的分类模型之一,经常被用作分类任务的基准。
原创
发布博客 2022.03.29 ·
964 阅读 ·
0 点赞 ·
0 评论

轻松入门自然语言处理系列 03 机器学习基础-逻辑回归

本文主要介绍了机器学习的基础模型逻辑回归模型:逻辑回归中的条件概率,包括逻辑回归的应用、理解基准、分类问题、逻辑函数和样本条件概率;逻辑回归的目标函数,包括最大似然估计、逻辑回归的似然函数和逻辑回归的最大似然估计;梯度下降法,包括求解函数的最小值最大值、梯度下降、逻辑函数求导和逻辑回归的梯度下降法;随机梯度下降法,包括梯度下降法的缺点、随机梯度下降法、小批量梯度下降法、基于小批量梯度下降法实现逻辑回归;案例-预测银行客户是否会开设定期存款账户,包括问题描述、数据理解、数据预处理、模型训练、模型评估等。
原创
发布博客 2022.03.19 ·
1720 阅读 ·
3 点赞 ·
2 评论

解决Windows11 visual c++ build tools安装包丢失或损坏

发布资源 2022.03.15 ·
txt

轻松入门自然语言处理系列 02 数据结构与算法基础

本文主要介绍了数据结构与算法的基础:数据结构与算法的重要性,包括复杂度分析和递归函数的复杂度,算法的复杂度分为时间复杂度和空间复杂度,分别从时间和内存空间上来衡量算法,每一个小的细节都会决定整个程序的效率;动态规划算法,包括动态规划与自然语言处理、最大递增子串和换硬币问题,NLP中经常用到动态规划的思想,例如编辑距离、维特比算法等;DTW算法和应用,包括DTW(Dynamic Time Warping)算法介绍、DTW的应用场景和DTW算法实现,DTW算法可以用来计算两个长度不相等的时间序列的相似度。
原创
发布博客 2022.03.15 ·
174 阅读 ·
0 点赞 ·
0 评论

轻松入门自然语言处理系列 01 自然语言处理概述

本文主要介绍了自然语言处理概述:专栏初衷和NLP前景,包括专栏的初衷、NLP岗位待遇和如何学习NLP;自然语言处理的概念,包括什么是自然语言处理、为什么自然语言处理难和一个简单机器翻译案例;自然语言处理的应用,包括智能问答系统、文本生成、机器翻译、情感分析、聊天机器人、虚假新闻检测、文本主题分类和信息抽取;自然语言处理核心技术,包括自然语言处理技术的三个维度、自然语言处理关键技术(分词、词性分析、语义理解、命名实体识别、依存文法分析、句法分析)和自然语言处理技术概览。自然语言处理是一个不错的选择方向。
原创
发布博客 2022.03.09 ·
223 阅读 ·
2 点赞 ·
0 评论

轻松入门自然语言处理系列 00 专栏介绍

近年来,人工智能被越来越多地应用到各个领域、极大地改善了人们的生活,自然语言处理是AI中最新得到很快发展的一个方向,具有很大的行业优势和前景,越早进入这个行业,优势越大。NLP主要包括分词、词性分析、语义理解、命名实体识别、依存文法分析和句法分析等核心技术,被广泛应用到智能问答系统、文本生成、机器翻译、情感分析和文本主题分类等场景中。同时可以肯定,在未来的一段时间内,NLP依然会保持这样的增长态势,因此掌握NLP技术显得更加重要和有吸引力。因此开设了自然语言处理入门系列专栏,让小白也能轻松入门NLP。
原创
发布博客 2022.03.09 ·
1207 阅读 ·
2 点赞 ·
2 评论

贪心学院第10期NLP魔鬼训练营使用随机森林预测员工离职率案例代码和数据

发布资源 2022.02.27 ·
zip

贪心 NLP训练营使用朴素贝叶斯 进行垃圾邮件分类案例 代码和数据

发布资源 2022.02.26 ·
zip

算法与数据结构全阶班-左程云版(二)基础阶段之4.堆和比较器

本文主要介绍了堆和比较器:堆结构就是用数组实现的完全二叉树结构,每棵子树的最大值都在顶部是大根堆,每棵子树的最小值都在顶部是小根堆,有heapInsert与heapify操作,时间复杂度分别为O(N*logN)和O(N),堆排序实现了O(N*LogN)的时间复杂度,同时空间复杂度O(1),优先队列的底层就是堆;比较器的实质是重载比较运算符,可以很好的应用在特殊标准的排序上,也可以应用在特殊标准排序的结构上,手写堆结构,因为增加了对象的位置表,所以能够满足动态改信息的需求,可以自己实现堆和对应的比较器。
原创
发布博客 2022.02.23 ·
162 阅读 ·
1 点赞 ·
0 评论

算法与数据结构全阶班-左程云版(二)基础阶段之3.归并排序和快速排序

本文介绍了2种排序方式:归并排序,思路是整体为递归,左边排好序+右边排好序+ merge让整体有序,也可以用非递归实现,时间复杂度为O(N*logN),额外空间复杂度为O(N),相比于冒泡排序、选择排序和插入排序O(N2)的时间复杂度,归并排序的时间复杂度优化了很多,这是因为减少了比较次数,有很多应用,例如求小和、逆序对等,只要数组中左边的数比右边的数满足某个条件即可进行操作;快速排序有3种方式,普通分区算法,荷兰国旗算法,随机选数与最后一个数交换,再利用荷兰国旗算法,时间复杂度为O(N*logN)。
原创
发布博客 2022.02.21 ·
393 阅读 ·
1 点赞 ·
1 评论
加载更多