机器学习实战
TongYixuan_LUT
这个作者很懒,什么都没留下…
展开
-
机器学习项目(六)医疗知识图谱构建(五)
图表征学习TransX系列算法空间传递不变性Queen-women+man = kingTransE对于所有的实体和关系随机初始化一个向量,使得实体和关系在同一空间内表征,使得每个正确的三元组可以从头实体通过关系翻译到尾实体上,定义从头实体翻译到尾实体之后与标注尾实体之间的距离为“势能差”,找到整体最小的势能差的实体和关系向量。存在的问题TransE模型很简单也带来一个很大的问题就是他只适合处理一对一的关系,举例来说(华科、地点、武汉)和(黄鹤楼、地点、武汉)出现在KG中时,TransE的表原创 2020-06-11 16:07:21 · 813 阅读 · 1 评论 -
机器学习项目(六)医疗知识图谱构建(四)
Neo4jNeo4j是一个高性能的NOSQL图形数据库,它将机构化数据存储在网络上而不是表中Node节点 获得图数据库中所有实体节点relationship 增加所有增删改查的边关系节点NodeMatcher 查找节点#coding:utf-8from py2neo import Graph, Node, Relationship,NodeMatcherimport pandas as pdimport rebuwei = ['全身', '男性股沟', '颈部', '眼', '生殖部位',原创 2020-06-11 15:11:26 · 860 阅读 · 0 评论 -
机器学习项目(六)医疗知识图谱构建(三)
BiLstm & CRFRNN 三个门结构 -> LSTM:门结构合并->GRU传递顺序改变->BiLSTM激活函数改变->libLSTM为什么要使用CRFCRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过CRF层自动学习到句子中第一个词总是以标签“B-”或者“O”开始,而不是“I-”标签“B-label1 I-label2 I-lable3 I-…”,label1,label2,label3应该属于同一类原创 2020-05-19 16:34:26 · 642 阅读 · 0 评论 -
机器学习项目(六)医疗知识图谱构建(二)
正则表达式通过规则的找到符合某种规律的字符串结果正则表达式构成:数量词:.?+*{}.句号匹配任意单个字符除了换行符匹配 >= 0个重复的在号之前的字符+匹配 >= 1个重复的在+号前的字符?标记?之前的字符为可选字符集:[]()(xyz)字符集,匹配与xyz完全相等的字符串转义字符:\t \r \p运算符:\|反斜线\在表达式中用于转码紧跟其后的字符,用于指定{}[]/+*.$^|?这些特殊字符|或运算符import reimport pandas原创 2020-05-18 20:53:23 · 540 阅读 · 0 评论 -
机器学习项目(六)医疗知识图谱构建(一)
NLP中的两大流派知识图谱用三元组来表示知识:对领域的特定知识进行结构化存储和表示模型算法:利用图谱关系进行推导,进行实现自主学习深度学习利用机器提取的特征来表述数据:自动提取内在特征模型算法:优化特征的权重进行非线性映射深度学习对比知识图谱能够实现端到端的模型,中间减少人为的参与,知识图谱通过三元组的关系表示,可以最大限度的获得自然世界中的相互联系发展方向Pretrain+finetune预训练:大语料、无监督、深模型获得语义表示微调:在下游任务中添加具体语义信息实现任务强化学习原创 2020-05-14 20:58:16 · 1769 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(七)Wide&Deep
Wide&DeepWide&Deep模型是谷歌在2016年提出的一种用于分类、回归任务的模型Memorization:LR模型+大量的原始特征和叉乘特征作为输入,“记忆”历史数据中曾共同出现过的特征对。Generalization:为sparse特征学习低维的dense embeddings来捕获特征相关性,学习到的embeddings本身带有一定的语义信息a(l+1)=f(W(l)a(l)+b(l))a^{(l+1)} = f(W^{(l)}a^{(l)} + b^{(l)}原创 2020-05-12 14:12:03 · 1272 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(六)FM FFM
FM&FFM特征类型1.连续性特征:统计特征、用户对商品的偏好分、搜索词和文本相似度等2.离散型特征:用户ID、性别、省份、商品ID、品牌ID、品类ID等连续性特征离散化1.连续性特征离散化优点:离散化后的特征对异常数据有很强的鲁棒性特征离散化后,模型会更稳定2.连续性特征离散化的方法:分桶法:等宽分桶、等频分桶树模型分桶:借助树模型分桶离散型特征:one-hot编码:hash trickMF(Matrix Factorization)minp,qL(p,q)=∑(原创 2020-05-09 16:31:29 · 1022 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(五)Criteo Ctr
criteo ctr推荐和搜索搜索的目的性很强 但是涉及到的商品范围较窄 搜索产品的转换率比推荐产品高 原因就是搜索的目的性强推荐 多品牌 多品类计算广告 追求利益的最大化搜索 推荐 计算广告的区别搜索和推荐 需要考虑用户的体验、品牌等广告在满足一定条件下,追求的是平台利益的最大化,不考虑用户体验CTR预估是搜索、推荐、计算广告的基础按点击收费(CPC) = 点击率(CTR)价格通过单次曝光的收益,决定展示哪个商品CPS(实际安装并收费成本) = 转化率价格转化率 :用户看到商品原创 2020-05-08 20:38:34 · 861 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(四)
五、协同过滤种类基于记忆:基于物品基于用户集成:Combine the Model-based&Memory-based基于模型:矩阵分解深度学习基于用户基于模型不同算法特征值和特征向量AX=λXAX = \lambda XAX=λXX就是特征向量$\lambda $就是特征值A=wλw−1A = w \lambda w^{-1}A=wλw−1SV...原创 2020-04-27 22:31:56 · 1665 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(三)
四、基于内容推荐协同过滤:基于内容 基于用户找到用户或内容之间的相似性 进行推荐基于内容推荐简介基于标的物相关信息、用户相关信息及用户对标的物操作行为来构建推荐算法模型,为用户提供推荐服务。基于内容推荐核心步骤基于用户特征和标的物特征 实现为用户推荐相似的标的物1.基于用户历史行为记录做推荐:先计算标的物之间的相似性,然后利用用户历史记录中与标的物相似的物品进行推荐(余弦相似...原创 2020-04-25 14:04:48 · 2090 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(二)
三、IMDb评分IMDb简介互联网电影数据库(英语:Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视艺人、电子游戏和电影制作小组的在线数据库。IMDb开办于1990年10月17日,从1998年开始成为亚马逊公司旗下的网站,在2020年是IMDb成立30周年。IMDb的资料中包含了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电...原创 2020-04-21 10:28:18 · 1622 阅读 · 0 评论 -
机器学习项目(五) 电影推荐系统(一)
电影推荐系统1.推荐系统简介2.电影数据处理3.简单电影推荐4.基于内容电影推荐5.协同过滤6.总结一、推荐系统简介推荐系统的商业应用推荐系统能找到你喜欢的 帮助你决策 然后发现新的事物从商家的角度来说 推荐系统可以提供个性化的服务 提高用户的信任度 对推出商品的粘性 进而增加商家的营收推荐系统就是联系用户和信息之间的关系一方面帮助用户发现对自己有价值的信息另一方面可以让...原创 2020-04-20 19:19:28 · 5993 阅读 · 0 评论 -
机器学习项目(四)疫情期间网民情绪识别 (二)
文本情感分类问题机器学习方法 TFIDF+机器学习分类算法深度学习方法 TextCNN TextRNN 预训练的模型预训练的模型有哪些?bert输入有三个序列 Token(字符的序列 把文本转化成字符的编码 进行输入)Segment(段序列 用于区分是句子A 还是句子B (如果是A就设为0 B就设为1) 用于文本分类 可以全部设成0)Position(位置向量 由于tr...原创 2020-03-27 22:28:27 · 5632 阅读 · 21 评论 -
机器学习项目(四)疫情期间网民情绪识别 (一)
疫情期间网民情绪识别赛题背景2019新型冠状病毒(2019-nCoV)感染的肺炎疫情发生对人们生活生产的方方面面产生了重要影响,并引发国内舆论的广泛关注,众多网民参与疫情相关话题的讨论。为了帮助政府掌握真实社会舆论情况,科学高效地做好防控宣传和舆情引导工作,本赛题针对疫情相关话题开展网民情绪识别的任务。数据介绍训练集 10万条无标记样本90万条测试集1万条数据集依据与“新冠肺炎”相关...原创 2020-03-27 19:09:11 · 8592 阅读 · 25 评论 -
机器学习项目(三) 达观杯nlp比赛(五)
Text to Sequence文本转化序列欢迎大家来到深度之眼参加NLP比赛课,希望大家可以学习到NLP比赛技巧通过jieba分词得到:欢迎 大家 来到 深度 之眼 参加 NLP 比赛 课 , 希望 大家 可以 学习 到 NLP 比赛 的 技巧0 1 2 3 4 5 6 7 8 9 10 1 11 12 13 6 7 ...原创 2020-03-13 15:20:24 · 279 阅读 · 0 评论 -
机器学习项目(三) 达观杯nlp比赛(四)
词向量 word2vec如何表示一个词的意思如何将单词表示为任何模型的输入?向量词向量one-hot词向量SVD词向量将SVD应用于X1.I enjoy flying2.I like NLP3.I like deep learning通过选择前K个奇异向量来降低维数缺点:对于n*m矩阵来说计算的时间复杂度是O(mn^2)对于新词或者新的文档很难及时更新这个矩阵...原创 2020-03-11 22:17:39 · 193 阅读 · 0 评论 -
机器学习项目(三) 达观杯nlp比赛(三)
LightGBM模型训练速度比XGboost快占用内存比XGboost少准确率比XGboost好支持分布式LightGBM模型Histogram算法带深度限制的Leaf-wise的叶子生长策略直方图加速直接支持类别特征构造验证集验证集切分Sklearn中的验证集切分接口sklearn.model_selection.train_test_split(test_size...原创 2020-03-11 16:22:16 · 199 阅读 · 0 评论 -
机器学习项目(三) 达观杯nlp比赛(二)
TF-IDF第一步计算词频TF = 某个词在文章中出现的次数/文章总词数第二步 计算逆词频IDF = log(语料库的文档综述/(包含该词的文档数+1)第三步 计算TF-IDFTF-IDF = TF*IDF解决TF认为经常出现是重要的问题NgramN-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段...原创 2020-03-11 15:21:33 · 171 阅读 · 0 评论 -
机器学习项目(三) 达观杯nlp比赛(一)
达观杯赛前介绍和准备什么是NLP文本分类、文本相似度、序列标注、阅读理解、机器翻译、信息抽取等怎么打NLP比赛1.背景知识2.查阅资料3.手撕代码4.团队协作达观杯比赛竞赛背景2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、...原创 2020-03-10 22:05:37 · 281 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(十一)
信息抽取深度学习综述SurveyA Survey on Deep Learning for Name Entity RecognitionFlair EmbeddingContextual String Embeddings for Sequence Labeling基于字符的language modelIDCNN-CRF膨胀卷积Fast and Accurate Entity...原创 2020-04-04 15:37:19 · 957 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(十)
预训练模型1.图像领域预训练模型ImageNet2009年由李飞飞团队邓家等人提出,并迅速发展成为CV领域最知名的比赛ILSVRC,从2010年举办第一届,到2017年李飞飞宣布最后一届,前后总共举办8年,这八年间先后在这个比赛中涌现了一大批推动AI领域尤其是CV领域发展的算法和模型ILSVRC2012年Hinton团队提出了AlexNet,超过当时第二名效果41%,一下子引爆了AI领域...原创 2020-04-03 18:15:05 · 517 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(九)
关系抽取关系抽取的应用1.建立新的结构化的知识库2.扩大现有知识库3.支持QA系统关系分类VS关系抽取关系分类:一般是判断一个句子中两个实体(entity)是哪种关系,属于多分类问题。关系抽取:从一个句子中判断两个entity是否有关系,一般是一个二分类问题,指定某种关系。关系抽取方式1.手写规则2.监督学习3.半监督/无监督学习人工规则优点:有高准确率、可以为特定领域定...原创 2020-03-22 20:26:46 · 302 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(八)
BiLSTM-CRF 模型BiLSTM-CRF1.句中转化为字词向量序列,字词向量可以在事先训练好或随机初始化,在模型训练时还可以再训练2.经过BiLSTM特征提取,输出是每个单词对应的预测标签3.经CRF层约束,输出最优标签序列发射分数(emission score)发射分数 来自BiLSTM层的输出用XiyjX_{iyj}Xiyj代表发射分数,i是单词的位置索引,yjy_jyj...原创 2020-03-20 21:52:42 · 308 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(七)
文本特征抽取文本特征抽取利用深度学习自动发现特征的优势,学习到对最终任务有用的特征。nlp任务特征:1.序列输入,前后依赖2.输入不定长3.位置敏感卷积神经网络卷积 -> 池化 -> 全连接局部感知,参数共享,并行化,速度快卷积神经网络在图像中应用局部特征:N-Gram无法捕捉长距离特征卷积神经网络在文本中应用膨胀Dilated CNN为传统CNN的f...原创 2020-03-16 17:04:10 · 3060 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(六)
传统方法解决NER问题1.基于规则的专家系统:召回低,规则维护复杂,泛化能力差2.基于特征的监督学习:需要大量特征工程,泛化能力一般基于DL的NER模型成为主流,并取得了SOTA深度学习的关键优势在于其强大的表示学习能力,通过向量表示和神经网络学习复杂的组合语义深度学习可以通过对原始数据进行训练,自动发现分类或检测所需的语义表示NLP监督任务基本套路:文本数据搜集合预处理将文本...原创 2020-03-16 15:24:43 · 315 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(五)
条件随机场概率图模型概率图模型是指一种用图结构来描述多远随机变量之间条件独立关系的概率模型图中的每个节点都对应一个随机变量,可以是观察变量,隐变量或是位置参数等;每个链接表示两个随机变量之间具有依赖关系。有向图 代表两个随机变量之间存在因果关系无向图 但是有条件依赖关系概率图模型有向图VS无向图有向图联合概率分布可以利用条件概率来表示P(v1d,…,vnd)=∏i=1nP(...原创 2020-03-15 13:27:35 · 452 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(四)
HMM 与 维特比解码隐马尔科夫模型实例观察到的数字序列2 5 8 3 5每一面的概率1/6 1/4 1/8三个骰子互相切换到其他骰子的概率都是1/3-------------------------------D6D6D8D6D6D4D8D4D8D8D8求最可能的骰子序列隐马...原创 2020-03-12 20:02:11 · 329 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(三)
机器学习的基本流程自然语言处理(Natural Language Processing NLP)技术被称为“人工智能皇冠上的明珠”中文NLP一般流程1.获取语料2.语料预处理3.特征工程4.特征选择5.模型训练6.评价指标7.模型上线应用中文分词中文切词常见方法里既有经典的机械切分法(如正向/逆向最大匹配,双向最大匹配等),也有效果更好一些的统计切分方法(如隐马尔科夫HMM...原创 2020-03-12 12:35:02 · 247 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(二)
AC自动机与正则表达式字符串搜索算法,用于在输入的一串字符串中匹配有限组"字典"中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度,约为字符串的长度加所有匹配的数量KMP算法KMP算法核心为部分匹配表,记录字符串中的前缀集合与后缀集合的交集中最长元素的长度。根据部分匹配表,可避免重复检查先前匹配的元素。Trie 树trie,又称...原创 2020-03-09 22:44:47 · 344 阅读 · 0 评论 -
机器学习项目(二) 人工智能辅助信息抽取(一)
信息抽取基础知识图谱的概念、应用与构建什么是知识图谱知识图谱里通常用==“实体(Entity)”来表达图里的节点,用“关系(Relation)”==来表达图里的“边”三元组 -> (奥迪,德系,品牌)知识图谱主要由谷歌提出,用来优化搜索引擎什么是信息抽取对于结构化与半结构化数据需要复杂表数据的处理与定义抽取的包装器等方式实现。对非结构化的纯文本数据需要借助自然语言处理等技术...原创 2020-03-09 15:52:22 · 1110 阅读 · 0 评论 -
机器学习项目(一)工业离散制造过程中的符合率业务需求问题——模型选择
算法选型1、明白这是做什么的?(分类还是回归?)2、选择什么模型?(当然是又小又好)3、调用模型时要方便快捷?(主要涉及到选择的调用库等等!)导入数据划分函数from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(train, tr...原创 2020-03-06 16:03:24 · 185 阅读 · 0 评论 -
机器学习项目(一)工业离散制造过程中的符合率业务需求问题——数据预处理
数据预处理数据EDA数据可视化 数据离散和连续性分析数据加载相关的包import pandas as pdimport numpy as np防止部分警告import warningswarnings.filterwarnings("ignore")数据可视化import matplotlib.pyplot as pltplt.rcParams['font.sans-s...原创 2020-03-02 18:40:33 · 271 阅读 · 0 评论 -
机器学习项目(一)工业离散制造过程中的符合率业务需求问题(二)
数据背景介绍来源:工业生产实际–西门子公司数据细看1.数据大小2.数据格式3.数据类型1、有哪些2、干什么3、有什么用4、数据的分布5、数据的EDA6、具体业务具体分析–如果一个业务你很熟悉的话那这个就不是问题了,你自己应该知道要做什么。一、明确数据才是魂魄–你要找一个合适的东西来读取它并展示好它、dask、spark、集群。import pandas as pdi...原创 2020-02-29 11:08:54 · 180 阅读 · 0 评论 -
机器学习项目(一)工业离散制造过程中的符合率业务需求问题(一)
工业离散制造过程中的符合率业务需求问题前期知识储备机器学习三大件:Numpy Matplotlib Pandas表格型数据 数据挖掘算法:有监督、无监督机器学习神奇-Sklearn:Sklearn的机器学习算法的应用大背景—— 智能制造带来的革命性影响(工业4.0)业务场景分析在高端制造领域,随着数字化转型的深入推进,越来越多的数据可以被用来分析和学习,进而实现制造过程中重要决策和...原创 2020-02-28 20:49:03 · 552 阅读 · 0 评论