![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 93
保护我方鲁班七号
机器学习、深度学习、自然语言处理从业者
展开
-
常用自然语言处理NLP模型原理
一、文本处理流程 文本清洗:html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息 预处理:去除停用词、加载自定义词库(实体词库、垂直领域词库)、分词 特征提取:关键词、实体词 建模:文本分类、文本聚类、情感分析、标签提取 优化:停用词库与自定义词库清洗与丰富、文本标签清洗、模型调整 效果评估:满足线上使用要求,准确率、速度,上线部署 二、NLP算法1、TF-IDF1)原理:词频-逆文档频率;一种用于信息检索原创 2021-02-18 14:06:28 · 5884 阅读 · 0 评论 -
机器学习项目处理流程方法论
一、问题分析将问题抽象成模型,这是一个什么问题(分类、聚类、回归?),使用什么模型1、明确分析目的,在开展项目之前,问清楚:问题背景:为什么开展这个项目/数据分析/分析需求?为了解决什么问题? 业务场景:做这个是用在哪里?干什么的? 问题结果:通过这个项目/数据分析需要我解决什么问题? 问题方案:思考怎么做2、确定分析思路,梳理分析思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体展开数据分析,需要从那几个角度进行分析,采用哪些分析指标。 最后还要确保分析框架的体系化,原创 2021-02-18 13:59:50 · 446 阅读 · 0 评论 -
AI工程师技术学习进阶指南
数学基础微积分《北京大学高等数学B》线性代数北京大学出版社,《线性代数简明教程》 MIT 的线性代数公开课概率论与数理统计李航《统计学习方法》朴素概率论钟开来概率论朴素统计学理论北京大学出版社,《概率论与数理统计下册》 北京大学出版社,《多元统计》 Wasserman所著《All of Statistics》朴素优化理论Boyd和Vandenberghe所著《Convex Optimization》编程基础编程语言(至少熟悉1+)《集体智慧编程》..原创 2021-02-18 11:55:28 · 480 阅读 · 0 评论 -
Centos7.2常用python开发环境安装教程(anaconda+python3.6+mysql5.7+redis5.0+nginx1.18+uwsgi+flask)
服务器系统环境网络状态:可联外网 系统:centos7.2# 查看系统版本cat /etc/centos-releaseanaconda安装安装包下载选择清华镜像源(直接下载anaconda官网速度较慢,国内镜像源下载速度快)https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D 根据需要下载对应版本安装包至本地,此处选择2020年7月发布的版本Anaconda3-2020.07-Linux-x86.原创 2020-11-25 15:42:33 · 577 阅读 · 1 评论 -
机器学习十大经典算法
一、线性回归线性回归是一种线性模型,线性模型基本形式如下,主要包括线性回归、对数几率回归、线性判别分析等几种经典模型。1、模型函数2、模型学习我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化。基于均方误差(平方损失,欧氏距离)最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,是所有样本到直线上的欧氏距离之和最小。注:推导过程见二元线性回归最小二乘法公式推导3、经验规则我们可以删原创 2020-09-15 14:39:40 · 842 阅读 · 0 评论 -
Linux服务器端离线安装nginx+uwsgi+flask环境
硬件环境操作系统:Linux Ubuntu 16.04.12~$ cat /proc/versionLinux version 4.15.0-72-generic (buildd@lcy01-amd64-023) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12)) #81~16.04.1-Ubuntu SMP Tu...原创 2020-05-07 13:41:41 · 906 阅读 · 0 评论 -
机器学习|深度学习|数据挖掘|自然语言处理 值得收藏的好文资源合集
机器学习算法原理解析一文搞懂HMM(隐马尔可夫模型)github项目Linux系统编码Ubuntu Linux 下文件名乱码(无效的编码)的快速解决办法自然语言处理开源工具jieba hanlp LTP Stanford nlpir bosonnlp 腾讯nlp nltk命名实体识别用隐马尔可夫模型(HMM)做命名实...原创 2020-04-10 17:21:58 · 228 阅读 · 0 评论 -
2018“达观杯”文本智能处理挑战赛心得
达观杯是一个NLP文本处理比赛,由达观数据公司主办,具体信息参考此比赛网址。为了熟悉一下算法比赛的流程,报名并参加了这个比赛,此比赛已经结束了,但是仍然可以报名参加获取分数和排名,这个kaggle的比赛一样,我觉得对于新人练手来说还是很方便的。废话不多说,以下详述比赛流程。环境配置win10 python3.6 pycharm jupyter notebook scikit-lea...原创 2019-02-19 16:20:16 · 699 阅读 · 0 评论 -
【机器学习/深度学习】学习笔记——易混淆和常见的专有名词、概念
pythona.append(b)>>> a = [1,2,3]>>> b = [4,5,6]>>> a.append(b)>>> a[1, 2, 3, [4, 5, 6]]a.extend(b)>>> a = [1,2,3]>>>原创 2019-02-25 17:19:50 · 432 阅读 · 0 评论 -
作为一名高贵的科研狗+程序猿,如何优雅地查阅文献资料
副标题1:作为一名高贵的科研狗+程序猿,不知道以下网站你就out了!副标题2:这些网站你都不知道,还谈什么科研和学术?快去搬砖!作为一名科研人士(dog),怎么能够对查阅/下载论文资料一无所知呢?不然被问到哪里能够下载到您的宝作时,就只能翟天临式微笑了,桀桀桀~下面介绍一下作者大概通过哪些途径获取最新的论文。中文文献检索中国知网http://www.cnki.net/知...原创 2019-03-26 14:37:02 · 850 阅读 · 0 评论 -
《推荐系统实践》读后心得
基本任务联系用户和物品,解决信息过载问题难点自然语言理解技术很难用户用来描述兴趣的自然语言 用户的兴趣是不断变化的,但用户不会去经常更新兴趣描述 用户不知道自己喜欢什么,或者很难描述自己喜欢什么信息过载解决方案分类目录 雅虎、DMOZ、hao123将著名的网站分门别类,从而方便用户根据类别查找网站。但是随着互联网规模的不断扩大,分类目录网站也只能覆盖少量的热门网...原创 2019-08-15 18:20:36 · 873 阅读 · 0 评论 -
李航《统计学习方法》读书笔记1——第一章 统计学习方法概论
第一章 统计学习方法概论简单介绍统计学习方法基本概念。统计学习定义关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。研究对象数据data(数字、文字、图像、视频、音频),同类数据具有一定的统计规律性获取数据——提取特征——抽象模型——挖掘知识——分析预测统计学习方法基于数据构建统计模型从而对数据进行预测与分析...原创 2019-10-10 18:12:57 · 654 阅读 · 0 评论 -
实际工程问题中应用机器学习和深度学习的踩坑心得总结
数据样本一开始会偏好去套用论文中的各种华丽算法,希冀提高百分之几的指标,最后“啪啪啪”打脸,发现还是那句老话说得好,“对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限”。所以追本溯源,提高结果的关键手段之一是提高数据和特征的质量和数量,这能达到快速提高指标结果的目的。增加训练样本数量,收集更多的数据 优化数据清洗 改善样本分布特征工...原创 2019-02-22 16:09:47 · 796 阅读 · 0 评论 -
《百面机器学习——学习笔记》个性化推荐系统
冷启动冷启动问题:在没有大量用户数据的情况下如何给用户进行个性化推荐冷启动目的:最优化点击率、 转化率或用户体验(用户停留时间、 留存率等)冷启动问题分类:用户冷启动:指对一个之前没有行为或行为极少的新用户进行推荐 物品冷启动:指为一个新上市的商品或电影(这时没有与之相关的评分或用户行为数据) 寻找到具有潜在兴趣的用户 系统冷启动:指如何为一个新开发的网站设计个性化推荐系统解...原创 2019-02-15 15:07:29 · 572 阅读 · 0 评论 -
《百面机器学习——学习笔记》2、模型评估
前言“没有测量,就没有科学。” ——门捷列夫1、评估指标的局限性奢侈品广告投放问题,训练奢侈品用户数据模型,准确率高,但非奢用户仍被投广告问题1 准确率的局限性。难度:★☆☆☆☆解答:准确率(Accuracy):分类正确的样本占总样本个数的比例缺点:当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。改进:平均准确率(每个类别下的样本准...原创 2019-01-29 16:47:13 · 380 阅读 · 0 评论 -
【机器学习-学习笔记】线性回归 -- 梯度下降vs正规方程 优缺点比较
假设有m个训练样本,n个特征变量梯度下降 正规方程 需要选择学习速率α,运行多次尝试不同的α直到找到合适的α 不需要选取需要选取学习速率α,只需要运行一次计算即可 需要多次迭代,取决于细节,计算可能较慢 不需要进行迭代,计算来检查收敛性 当n很大(上百万)时表现很好,通常很有效 求解时需要计算这一项,该项为的矩阵,对于大多数计算机而言,实现逆矩...原创 2018-08-01 11:17:46 · 1869 阅读 · 0 评论 -
【机器学习-学习笔记】Logistic 回归
Logistic 回归是广泛使用的分类算法之一。二分类问题举例:垃圾邮件分类、线上交易欺诈分类、肿瘤良恶性分类……线性回归不适用于分类方法。 Logistic 回归:,这是一个sigmoid函数或logistic函数 决策边界:给定参数θ可确定决策边界。代价函数: 高级优化算法多类别分类问题一对多/一对余...原创 2018-08-01 18:08:52 · 257 阅读 · 0 评论 -
【机器学习-学习笔记】正则化——过拟合问题解决方法
正则化技术是一种改善或减小过拟合问题的方法。线性回归过拟合问题:逻辑回归过拟合问题:解决过拟合问题:正则化:加入惩罚因子λ(正则化参数),使得高阶项尽可能小(趋近于0),J(θ)曲线越平滑 线性回归的正则化: Logistic 回归的正则化:...原创 2018-08-03 15:23:35 · 442 阅读 · 0 评论 -
【机器学习-学习笔记】吴恩达老师机器学习课的笔记(黄海广博士)
吴恩达老师机器学习课的笔记github地址:https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes,黄海广博士原创,黄海广博士也是这门课的最初翻译者。 《机器学习个人笔记完整版v5.3-A4打印版.pdf》云盘链接:https://pan.baidu.com/s/1G1mDEKmPSr2feoPwbgOu8w 密码:9wi4 ...原创 2018-08-08 09:33:05 · 25991 阅读 · 17 评论 -
【机器学习-学习笔记】单/多变量线性回归、多项式回归、逻辑回归、过拟合、正则化
问题 描述 表达式描述 表达式 单变量线性回归 只含有一个特征/输入变量 一元一次表达式 多变量线性回归 含有多个特征/输入变量 多元一次函数 多项式回归 含有多个特征/输入变量 多元多次函数 逻辑回归 含有多个离散输出,解决分类问题 sigmoid函数 过拟合 有效适应训练...原创 2018-08-08 14:48:00 · 1628 阅读 · 0 评论 -
python实战项目示例 :揭秘微信朋友圈(调用wxpy库)
通过python,连接到微信账号,收集好友性别、城市、个性签名等公开信息,使用 Python 进行数据统计与分析,得到你专属的朋友圈的分析报告!github地主:https://github.com/KaguraTyan/wechat_analysis_wxpy1、准备工作1.1 环境配置编译环境:Windows10编程语言:Python3.6编译器IDE:Pycharm...原创 2018-09-18 13:59:12 · 8069 阅读 · 5 评论 -
python数据挖掘分析微信朋友圈(调用itchat库)
参考https://blog.csdn.net/qinyuanpei/article/details/79360703,基于python3.6实现微信朋友圈性别、地区、个性签名、头像四个维度的分析。GitHub项目地址:https://github.com/KaguraTyan/wechat_analysis_itchat1、准备工作1.1 环境要求WIN10 python3.6...原创 2018-09-18 15:30:51 · 3721 阅读 · 7 评论 -
python报错解决方法:module 'scipy.misc' has no attribute 'imread'
运行python程序,使用scipy.misc import imread时,报错:module 'scipy.misc' has no attribute 'imread'。报错原因:查看scipy.misc帮助文件得知,imread依赖于pillow解决方法在该python环境中,安装Pillow即可pip3 install Pillow ...原创 2018-09-13 16:00:17 · 17565 阅读 · 5 评论 -
经典机器学习与深度学习算法梳理
针对一些常见的机器学习算法,总结算法的思路、流程、应用和优缺点等。k近邻算法(kNN) 简单地说,k近邻算法采用测量不同特征值之间的距离方法进行分类。 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本...原创 2018-09-21 11:27:21 · 1169 阅读 · 0 评论 -
【机器学习--学习笔记】大规模机器学习
此处对比批量梯度下降、随机梯度下降、小批量梯度下降算法的优缺点算法 批量梯度下降(Batch Gradient Descent, BGD) 随机梯度下降(Stochastic Gradient Descent, SGD) 代价函数 梯度下降算法 比较 每一次更新参数θ时,都需要计算所有m个训练样本的差平方项求和,然后更新一次θ值,当...原创 2018-09-29 11:29:47 · 218 阅读 · 0 评论 -
【资源整合帖】机器学习&深度学习,如何从入门到高手
用来收集各类资源,各大包括机器学习ML、深度学习DL、自然语言处理NLP、机器视觉等方向,更新ing~课程资源很多视频课程网易云课堂、腾讯课堂、MOOC等视频学习类网站都有资源,but,基本上B站上都有搬运工 ,有弹幕解释,有评论提供资料、作业、解析等,所以——B站大法好!1.软件基础视频教程:莫烦python:python入门学习视频教程,小哥哥讲的很好 Tensorflo...原创 2018-11-07 09:59:38 · 645 阅读 · 0 评论 -
《百面机器学习》学习笔记 1、特征工程
前言对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。定义特征工程:是对原始数据进行一系列工程处理, 将其提炼为特征, 作为输入供算法和模型使用。 从本质上来讲, 特征工程是一个表示和展现数据的过程。 在实际工作中, 特征工程旨在去除原始数据中的杂质和冗余, 设计更高效的特征以刻画求解的问题与预测模型之间的关系。常见数据类型结...原创 2019-01-29 14:06:10 · 395 阅读 · 0 评论 -
【机器学习-学习笔记】神经网络(前向传播算法、反向传播算法)
基本架构神经网络分类示例:前向传播:计算神经网络预测结果,从第一层开始正向一层一层进行计算,直到最后一层的反向传播:计算代价函数的偏导数,首先计算最后一层(输出层)的误差,然后再一层一层反向求出各层的误差,知道倒数第二层(不计算输入层,输入层没有误差)。前向传播算法:神经网络用于分类场景:神经网络代价函数:反向传播算法:小...原创 2018-08-10 15:44:57 · 1327 阅读 · 0 评论