- 博客(1164)
- 资源 (42)
- 收藏
- 关注
原创 机器学习算法原理专栏目录
机器学习十大算法https://xingqijiang.blog.csdn.net/article/details/82426626机器学习 | LR逻辑回归模型https://xingqijiang.blog.csdn.net/article/details/81607994LR 特征离散化https://xingqijiang.blog.csdn.net/article/details/81607994漫画:逻辑回归https://xingqijiang.blog.csdn.
2021-05-03 12:40:46 1043 8
原创 EM算法详解
EM(Expectation-Maximum)算法也称期望最大化算法,曾入选“数据挖掘十大算法”中,可见EM算法在机器学习、数据挖掘中的影响力。EM算法是最常见的隐变量估计方法,在机器学习中有极为广泛的用途,例如常被用来学习高斯混合模型(Gaussian mixture model,简称GMM)的参数;隐式马尔科夫算法(HMM)、LDA主题模型的变分推断等等
2024-03-11 11:07:01 23
原创 F1-score模型评估
F1-score 是一种用于衡量分类模型性能的指标,它综合了精确度(Precision)和召回率(Recall)两个指标。F1-score 的值在 0 和 1 之间,值越接近 1,表示模型的性能越好。在文本分类任务中,F1-score 可以帮助我们了解模型在精确度和召回率方面的平衡情况。
2024-03-08 10:55:32 327
原创 SnowNLP使用自定义语料进行情感分类模型训练
SnowNLP是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。
2024-03-05 20:10:58 604
原创 Simhash在内容去重中的应用
相比计算余弦相似度,simhash算法可以快速计算文本的哈希值,而且能够在哈希值之间计算汉明距离,从而衡量文本的相似度。simhash算法的优点是它能够快速处理大量文本,并且可以识别并过滤掉文本中的噪声和重复内容。
2024-02-29 10:59:49 16
原创 FP-Growth算法全解析:理论基础与实战指导
FP-Growth(Frequent Pattern Growth,频繁模式增长)算法是一种用于数据挖掘中频繁项集发现的有效方法。它是由Jian Pei,Jiawei Han和Runying Mao在2000年的论文中首次提出的。该算法主要应用于事务数据分析、关联规则挖掘以及数据挖掘领域的其他相关应用。
2024-02-27 16:04:03 201
原创 【深度好文】simhash文本去重流程
SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的汉明距离(Hamming Distance)来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。
2024-02-27 12:02:16 28
原创 minHash(最小哈希)和LSH(局部敏感哈希)
在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度。关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数。但是,当这两个集合里的元素数量非常庞大时,同时又有很多个集合需要判断两两之间的相似度时,这种方法就呵呵了,对内存和时间的消耗都非常大。因此,为了解决这个问题,数据挖掘中有另一个方法。
2024-02-26 17:17:48 24
原创 社区发现之标签传播算法(LPA)
在 LPA 算法中,节点的标签完全由它的直接邻居决定。这是一个迭代的计算过程且不保证收敛,大体的思路就是每个人都看看自己的邻居都在什么社区内,看看频率最高的社区是啥,如果和自己当前的社区不一样,就把这个最高频社区当成是自己的社区,然后告诉邻居,周而复始,直到对于所有人,邻居们告诉自己的高频社区和自己当前的社区是一样的,算法结束。当二分图左边都是a,右边都是b时,a社区的节点此时邻居节点都是b,b社区的节点此时邻居节点都是a,根据更新规则,此时a社区的节点将全部更新为b,b社区的节点将全部更新为a。
2024-02-23 19:12:47 82
原创 Hive sql <> 和 !=
在日常开发中,使用 Hive sql 中的不等于判断符,即 和 != , 和 != 都是会把 null 值的数据剔除掉
2024-01-25 16:15:39 41
原创 python中print函数的用法
print() 函数是 Python 中用于输出信息到控制台的内置函数。它可以将文本、变量、表达式等内容打印出来。print() 函数可以接受多个对象作为参数,它们会按照顺序打印出来。可以使用 sep 和 end 参数来修改分隔符和结束符。除了输出到控制台,print() 函数还可以将内容输出到文件中。如果想要立即刷新输出,可以将 flush 参数设置为 True。
2024-01-16 19:29:36 139 1
原创 conda添加清华镜像源
conda config --set show_channel_urls yes的意思是从channel中安装包时显示channel的url,这样就可以知道包的安装来源了。输入conda config --show channels查看一下是否添加成功。显示所有channel。
2023-11-10 15:18:02 5453
原创 解决MySQL不能存储Emoji表情的问题
在MySQL 5.5.3之前版本的数据库中,数据库的默认编码是utf8字符集,只支持1-3个字节的字符,也就是只能保存1到3个字节。但现在的emoji表情需要用4个字节才能保存,所以抛出异常。1、将数据表的编码格式设置成utf8mb4_general_ci。最后修改druid数据源的配置,增加一行。此时数据库已经可以支持emoji表情了。2、修改JDBC链接。
2023-11-09 19:45:06 598
原创 TensorFlow: An open-source software library for Machine Intelligence
Google开源的机器学习软件包TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络
2023-11-08 18:26:48 614
原创 基于情感词典的情感分析方法
计算用户情绪强弱性,对于每一个文本都可以得到一个情感分值,以情感分值的正负性表示情感极性,大于0为积极情绪,小于0反之,绝对值越大情绪越强烈。3、 如果情感词前有否定词则将情感词的情感权值乘以-1,如果有程度副词就乘以程度副词的程度值;4、加和所有组的得分,积极情绪得分大于0、消极情绪得分小于0,绝对值越大情绪越强。2、判断每个情感词之前是否存在否定词及程度副词,将其与情感词分为文本中的一个组;1、对文本进行分词,找出文本中的情感词、否定词以及程度副词;
2023-10-25 16:28:18 236
原创 XGBoost+LR融合
当一个样本点通过某棵树最终落在这棵树的一个叶子结点上,那么在新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0。下图为混合模型结构。而决策树是一种树形结构,又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。”所以如何更有效的提取有效的特征是机器学习中的一个hotspot,例如近几年来大火的深度学习方法中神经网络的层数不断增加其实质也是在探索如何更好地从原始数据中得到更为有效的特征表达。
2023-10-14 15:02:53 252
原创 机器学习编码分类特征编码LabelEncoder与OneHotEncoder
LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。inverse_transform(y):根据索引值y获得原始数据。transform(y) :将y转变成索引值。
2022-12-20 18:25:05 720 1
原创 Python自然语言处理常用库——jieba库
开发者可以指定自定义词典,以便包含jieba词库里没有的词。虽然jieba有新词识别功能。但是自行添加新词可以保证更高的正确率。用法:jieba.load_userdict(file_name) #file_name为文件类对象或自定义词典的路径词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。filename若为路径或二级制方式打开的文件,则文件必须为UTF-8编码。词频省略时使用自动计算的能保证分出该词的词频。
2022-12-19 16:22:37 473
原创 AI人工智能算法解析&落地实践专栏列表
移动腾讯网 | 推荐系统 embedding 技术实践总结:https://blog.csdn.net/jxq0816/article/details/106383903。广告算法在阿里文娱用户增长中的实践:https://blog.csdn.net/jxq0816/article/details/104791433。腾讯信息流内容理解技术实践:https://blog.csdn.net/jxq0816/article/details/103507870。人工智能、机器学习、深度学习三者之间有什么关系吗?
2022-12-19 15:57:45 617
原创 Hadoop、HDFS、Hive、Hbase之间的关系
Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。
2022-12-18 21:00:38 3052
原创 hive中文繁简转化opencc4j
toTraditional(char) 返回单个汉字对应的所有繁体字列表。traditionalList(String) 返回包含的繁体列表。toSimple(char) 返回单个汉字对应的所有简体字列表。simpleList(String) 返回包含的简体列表。isTraditional(String) 是否为繁体。toTraditional(String) 转为繁体。toSimple(String) 转为简体。
2022-12-12 20:32:59 976 1
原创 NLP文章和视频违规声明原创案例集锦
同时以下情形不得声明原创,一经发现将取消文章原创标识,并且根据违规情况对其公众号予以相应处理。3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)3、符合平台运营规范(如营销宣传内容及其他违法违规内容不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)1、受著作权法保护(如公开性质内容不具备著作权,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)2、不得侵犯他人权益(如未经授权使用他人内容,则不在原创范围内)
2022-11-29 11:58:55 367
原创 hive构造UDF函数
1、创建一个project。2、建一个lib文件夹,放入hive-exec-0.13.0.jar,并在libraries中引入该jar包。3、在src目录下创建package,如com.abc。4、创建java文件,继承UDF,写功能代码。5、定义输出文件jar。6、最后执行build module。
2022-11-18 10:53:52 572
原创 以微博核心业务为例,解读如何仅用1台服务器支持百万DAU
近些年,各家公司都在不断推出各种新的 App,百万 DAU 成为各种 App 的最基本目标。本文将详解如何通过大规格服务器 +K8s 的方案简化这些新项目的成本评估、服务部署等管理工作,并在流量增长时进行快速扩容。同时,本文还介绍了微博核心业务采用此方案部署时遇到的问题以及对应的解决方案。
2022-11-04 20:21:30 357
原创 NLP时政有害信息的界定
1. 反对宪法确定的基本原则;2. 危害国家统一、主权和领土完整;3. 泄露国家秘密、危害国家安全或者损害国家荣誉和利益;4. 煽动民族仇恨、民族歧视,破坏民族团结,或者侵害民族风俗、习惯;5. 破坏国家宗教政策,宣扬邪教、迷信;6. 散布谣言,扰乱社会秩序,破坏社会稳定;7. 歪曲、丑化、亵渎、否定英雄烈士事迹和精神,侮辱、诽谤英雄烈士;8. 宣扬赌博、暴力、凶杀、恐怖或者教唆犯罪;9. 煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;10. 突破社会道德底线、制度底线的负面信息;
2022-10-31 11:01:58 355
原创 什么是https加密?
身份盗窃和浏览器警告越来越受到消费者的关注。没有为网站安装合适的SSL证书实现https加密会降低用户的信任度,导致客户流失,使在线成交率下降,从而对企业产生负面影响。在在线商务的领域里,信任就是一切。在保护客户信息安全的技术上投资,可以赢得客户的信任,而这是任何在网上做生意的公司或电子商务网站的关键因素,网站安装SSL证书实现https加密,可以有效地帮助建立客户信任度。
2022-10-28 20:55:14 214
原创 Shell中的括号、双括号、方括号和双方括号
首先在Shell中,括号表示条件测试方法。主要用在if-then、case等需要条件判断的语句结构中。最近在看bash,括号搞的我一头雾水,所以总结一下,理清思路!括号一般在命令替换的时候使用。双括号使用双括号,在比较过程中使用高级数学表达式注意,不需要将双括号中表达式里的大于号转义。这是双括号命令提供的另一个高级特性。方括号定义了测试条件。第一个方括号后和第二个方括号前都要加一个空格,否则会报错。方括号主要包括4类判断:2、字符串比较 比较 描述
2022-07-12 16:05:09 423
原创 shell 判断脚本执行是否成功 if [ $? -ne 0 ]
$?是shell变量,表示"最后一次执行命令"的退出状态.0为成功,非0为失败.
2022-07-12 15:35:56 2996
原创 NLP不良信息识别
不良信息包括但不限于:1. 标题党:使用夸张标题,内容与标题严重不符。2. 炒作负面话题:炒作绯闻、丑闻、劣迹等。3. 引战:制造事端或曲解原发内容本意,激化矛盾,引起不同群体相互攻击。4. 其他为获取流量和利益,侵害个人或单位合法权益的行为。宣扬仇恨是指用特定的生理、心理、地域、文化等属性区分出特定的人群加以标签化对立,并对此进行扩散传播,试图将对这一群体的排挤、贬低、歧视、攻击及伤害正当化、常规化的行为:1. 组织、煽动、引导不特定多数用户对具有以下类别的个体或群体的歧视、诽谤、侮辱、仇恨:
2022-06-08 21:29:31 811 1
原创 基于用户的协同过滤算法(二):用户相似度计算的改进
用户相似度计算的改进上一节介绍了计算用户兴趣相似度的最简单的公式(余弦相似度公式),但这个公式过于粗糙,本节将讨论如何改进该公式来提高UserCF的推荐性能。首先,以图书为例,如果两个用户都曾经买过《新华字典》,这丝毫不能说明他们兴趣相似,因为绝大多数中国人小时候都买过《新华字典》。但如果两个用户都买过《数据挖掘导论》,那可以认为他们的兴趣比较相似,因为只有研究数据挖掘的人才会买这本书。换句话说,两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。因此,John S. Breese在论.
2022-05-28 16:46:48 984 2
计算广告学第六单元课件.pdf
2021-11-03
计算广告学第五单元课件.pdf
2021-11-03
计算广告学第四单元课件.pdf
2021-11-03
计算广告学第三单元课件.pdf
2021-11-03
计算广告学第二单元课件.pdf
2021-11-03
基于大数据的用户画像方法研究综述.pdf
2021-10-31
深度学习在美团搜索广告排序的应用实践.pdf
2021-10-31
知乎推荐算法和帐号运营2021.pdf
2021-09-16
Adaptive Focus for Efficient Video Recognition.pdf
2021-08-23
Linux教程.ppt
2021-08-20
NLP中的注意力机制.pptx
2021-08-14
循环神经网络语言模型.pdf
2021-08-14
神经网络语言模型.pdf
2021-08-14
深度学习与问答系统.pdf
2021-08-14
深度学习与情感分析.pdf
2021-08-14
当代大学生的就业与成才.doc
2021-08-14
电信运营-计费管理系统的设计与实现.ppt
2021-08-14
SQL Server数据库实验_存储过程与触发器设计.docx
2021-08-11
SQL Server数据库实验_创建和修改数据表及数据完整性.doc
2021-08-11
SQL Server数据库实验_数据查询与更新_简单的单表查询.doc
2021-08-11
SQL Server数据库实验_数据查询与更新_复杂的单表查询.doc
2021-08-11
数据仓库与数据挖掘第二章Part2 ETL_AND_OLAP.ppt
2021-08-07
数据仓库与数据挖掘第三章Part3 An Intruction to Data Mining.ppt
2021-08-07
数据仓库与数据挖掘第五章Part5 Clustering聚类.ppt
2021-08-07
数据仓库与数据挖掘第六章Part6_6_SVM支持向量机.ppt
2021-08-07
数据仓库与数据挖掘第六章Part6_5_Rough_Set粗糙集.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_4_Genetic_Algorithm遗传算法.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_3 Neural Network神经网络.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_2 Naive Bayes Bayesian networks朴素贝叶斯.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_1 Decision Tree决策树.ppt
2021-08-06
数据仓库与数据挖掘第六章Part6_0 Classification.ppt
2021-08-06
HTMLCSSJavaScript标准教程:实例版(第2版)习题参考答案.docx
2021-08-03
互联网简历撰写技巧.zip
2021-08-02
map-reduce.pdf
2021-08-02
looklike.pdf
2021-08-02
titanic.csv
2021-06-11
主流app描述信息,包含package_name,app_name,app_info等基本信息
2021-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人