常用自然语言处理NLP模型原理 一、文本处理流程 文本清洗:html标签与转义字符、多余空格、根据需要清除邮箱、账号、网址、手机号、作者信息等信息 预处理:去除停用词、加载自定义词库(实体词库、垂直领域词库)、分词 特征提取:关键词、实体词 建模:文本分类、文本聚类、情感分析、标签提取 优化:停用词库与自定义词库清洗与丰富、文本标签清洗、模型调整 效果评估:满足线上使用要求,准确率、速度,上线部署 二、NLP算法1、TF-IDF1)原理:词频-逆文档频率;一种用于信息检索
机器学习项目处理流程方法论 一、问题分析将问题抽象成模型,这是一个什么问题(分类、聚类、回归?),使用什么模型1、明确分析目的,在开展项目之前,问清楚:问题背景:为什么开展这个项目/数据分析/分析需求?为了解决什么问题? 业务场景:做这个是用在哪里?干什么的? 问题结果:通过这个项目/数据分析需要我解决什么问题? 问题方案:思考怎么做2、确定分析思路,梳理分析思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体展开数据分析,需要从那几个角度进行分析,采用哪些分析指标。 最后还要确保分析框架的体系化,
AI工程师技术学习进阶指南 数学基础微积分《北京大学高等数学B》线性代数北京大学出版社,《线性代数简明教程》 MIT 的线性代数公开课概率论与数理统计李航《统计学习方法》朴素概率论钟开来概率论朴素统计学理论北京大学出版社,《概率论与数理统计下册》 北京大学出版社,《多元统计》 Wasserman所著《All of Statistics》朴素优化理论Boyd和Vandenberghe所著《Convex Optimization》编程基础编程语言(至少熟悉1+)《集体智慧编程》..
Centos7.2常用python开发环境安装教程(anaconda+python3.6+mysql5.7+redis5.0+nginx1.18+uwsgi+flask) 服务器系统环境网络状态:可联外网 系统:centos7.2# 查看系统版本cat /etc/centos-releaseanaconda安装安装包下载选择清华镜像源(直接下载anaconda官网速度较慢,国内镜像源下载速度快)https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D 根据需要下载对应版本安装包至本地,此处选择2020年7月发布的版本Anaconda3-2020.07-Linux-x86.
数据分析师必备技能之PowerBI教程 通过动手实践一些教程,总结一些经验。参考1、干货合辑 | 最全的PowerBI教程,都在这里了2、干货 | 无需企业邮箱,免费可发布到Web的Power BI账户注册秘籍
Linux环境下常用命令 作为一名算法工程师,通常都是在Linux环境中部署环境,所以总结了一些常用命令。【文件管理】cat 命令cat(英文全拼:concatenate) 命令用于连接文件并打印到标准输出设备上。参数说明:-n 或 --number:由 1 开始对所有输出的行数编号,输出所有行号。-b 或 --number-nonblank:和 -n 相似,只不过对于空白行不编号,对非空输出行号。-s 或 --squeeze-blank:当遇到有连续两行以上的空白行,就代换为一行的空白行。-v 或
机器学习十大经典算法 一、线性回归线性回归是一种线性模型,线性模型基本形式如下,主要包括线性回归、对数几率回归、线性判别分析等几种经典模型。1、模型函数2、模型学习我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化。基于均方误差(平方损失,欧氏距离)最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,是所有样本到直线上的欧氏距离之和最小。注:推导过程见二元线性回归最小二乘法公式推导3、经验规则我们可以删
leetcode 4. 寻找两个有序数组的中位数(python) 4. 寻找两个有序数组的中位数【困难难度】给定两个大小为 m 和 n 的有序数组nums1 和nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m + n))。你可以假设nums1和nums2不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]...
Linux服务器端离线安装nginx+uwsgi+flask环境 硬件环境操作系统:Linux Ubuntu 16.04.12~$ cat /proc/versionLinux version 4.15.0-72-generic (buildd@lcy01-amd64-023) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12)) #81~16.04.1-Ubuntu SMP Tu...
python redis安装与使用教程 简介REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希...
win10系统下crontab实现python定时任务功能,增加日志功能logging 在win10上安装linux子系统ubuntuhttps://jingyan.baidu.com/article/49711c61a1a025fa441b7cf2.htmlwindows 10应用商店版ubuntu安装以及设置中文https://blog.csdn.net/a156348933/article/details/80079117如何在win10下使用...
机器学习|深度学习|数据挖掘|自然语言处理 值得收藏的好文资源合集 机器学习算法原理解析一文搞懂HMM(隐马尔可夫模型)github项目Linux系统编码Ubuntu Linux 下文件名乱码(无效的编码)的快速解决办法自然语言处理开源工具jieba hanlp LTP Stanford nlpir bosonnlp 腾讯nlp nltk命名实体识别用隐马尔可夫模型(HMM)做命名实...
ubuntu16.04部署python3.5+flask+nginx+uwsgi过程中踩坑 uwsgiubuntu系统下uWSGI安装和启动的两个坑https://blog.csdn.net/weixin_42682982/article/details/90698724kinectv2编译时出现错误需要目标/usr/lib/x86_64-linux-gnu/libGL.so”。 停止ps:此处为参考,libpcre.so.1文件已存在,如何重建软连接ht...
数据分析、数据挖掘、机器学习工程师必备之公开数据集整理(收藏) Awesome Public Datasets此高质量的以主题为中心的公共数据源列表。它们是从博客,答案和用户响应中收集和整理的。下面列出的大多数数据集都是免费的,但是有些不是。其他惊人的超赞列表可以在sindresorhus的超赞列表中找到。https://github.com/awesomedata/awesome-public-datasetsnlp-datasets用...
李航《统计学习方法》读书笔记2——第二章 感知机 第二章 感知机感知机模型感知机是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。...
李航《统计学习方法》读书笔记1——第一章 统计学习方法概论 第一章 统计学习方法概论简单介绍统计学习方法基本概念。统计学习定义关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。研究对象数据data(数字、文字、图像、视频、音频),同类数据具有一定的统计规律性获取数据——提取特征——抽象模型——挖掘知识——分析预测统计学习方法基于数据构建统计模型从而对数据进行预测与分析...
leetcode 455. 分发饼干(python) 455. 分发饼干【简单】假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i ,都有一个胃口值gi ,这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j ,都有一个尺寸 sj。如果 sj >= gi,我们可以将这个饼干 j 分配给孩子 i ,这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子,并输出这个最大数值。注意:...
leetcode 75. 颜色分类(python) 75. 颜色分类【中等】给定一个包含红色、白色和蓝色,一共n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。此题中,我们使用整数 0、1 和 2 分别表示红色、白色和蓝色。注意:不能使用代码库中的排序函数来解决这道题。示例:输入: [2,0,2,1,1,0]输出: [0,0,1,1,2,2]进阶:一个直观的解决方案是使用...
leetcode 347. 前 K 个高频元素(python) 347. 前 K 个高频元素【中等】给定一个非空的整数数组,返回其中出现频率前k高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]说明:你可以假设给定的k总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(...
leetcode 215. 数组中的第K个最大元素(python) 215. 数组中的第K个最大元素【中等】在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。示例 1:输入: [3,2,1,5,6,4] 和 k = 2输出: 5示例2:输入: [3,2,3,1,2,4,5,5,6] 和 k = 4输出: 4说明:你可以假设 k 总是有效的,且 1 ≤ k ≤ 数...