AI算法攻城狮-CSDN博客

原创机器学习算法原理专栏目录

机器学习十大算法https://xingqijiang.blog.csdn.net/article/details/82426626机器学习 | LR逻辑回归模型https://xingqijiang.blog.csdn.net/article/details/81607994LR 特征离散化https://xingqijiang.blog.csdn.net/article/details/81607994漫画：逻辑回归https://xingqijiang.blog.csdn.

2021-05-03 12:40:46 1326 8

原创配置github的host

2、修改C:\Windows\System32\drivers\etc\hosts文件；3、cmd刷新DNS：ipconfig /flushdns。加入20.205.243.166 github.com。1、查找github.com的IP地址。

2025-11-06 15:34:06 601

原创 fasttext.train_supervised参数详解

fasttext.train_supervised函数允许用户通过一系列参数来定制训练过程，‌这些参数包括但不限于学习率（‌lr）‌、‌维度（‌dim）‌、‌周期次数（‌epoch）‌、‌词形（‌wordNgrams）‌、‌最小计数（‌minCount）‌等。‌

2024-08-12 11:53:58 593

原创 Word2Vec.LineSentence详解

Word2Vec是一种用于学习词向量的模型，‌它通过无监督学习的方式，‌从大量的文本数据中学习到每个词的分布式表示，‌即词向量。类进行训练时，‌每个句子都被视为一个独立的训练样本，‌模型通过学习这些样本中的词语组合和上下文关系，‌最终生成每个词的向量表示。‌这种表示方法不仅提高了模型的训练效率，‌还能更好地捕捉到词语之间的语义关系，‌为后续的自然语言处理任务提供了有力的支持。‌通过使用这个类，‌研究人员和开发者可以更容易地将自己的数据集转换成模型训练所需的格式，‌从而加速词向量的学习和应用过程1。

2024-08-12 11:38:42 599

原创 xgb参数详解

参数用于定义学习任务及相应的学习目标。这个参数决定了模型要执行的具体任务类型，例如回归、分类等，以及这些任务的具体形式。这些选项允许用户根据具体的应用场景选择合适的目标函数，以优化模型的学习过程和预测结果。GBoost模型中的。

2024-08-12 11:11:19 531

原创结巴分词原理

具体来说，结巴分词的前缀词典和后缀词典分别包含了一些常用的前缀和后缀，例如“的”、“是”、“不”、“了”等等，这些前缀和后缀可以用来构建DAG图中的节点，对于每个节点，它的出度连接指向所有可能与该节点组合成词语的后缀节点，从而形成DAG(有向无环图)图。结巴分词是一种中文分词算法，采用基于词频和词汇概率的方法对文本进行切割，将连续的中文字符序列切分成有意义的词，“结”是“精准”的意思，“巴”是“速度”的意思，因此结巴分词也被称为“高性能的中文分词工具”。

2024-05-29 17:29:54 523

原创 FastText：深度学习时代的轻量级文本分类利器

Facebook AI研究院于2016年提出了FastText算法，巧妙地结合了词袋模型与深度学习的优势，实现了高效、准确的文本分类。本文将围绕FastText算法，对其理论基础、工作原理、实现细节、优缺点、应用案例、与其他算法的对比以及未来发展趋势进行全面探讨。

2024-05-19 16:15:55 582

原创 Gini Impurity（基尼不纯度）

基尼不纯度：衡量集合的无序程度，有放回抽样两次，两次样本标签不同的概率。

2024-05-15 17:14:28 395

原创 FastText文本分类原理详解

fastText是一个快速文本分类算法，与基于神经网络的分类算法相比有两大优点：1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量，fastText会自己训练词向量3、fastText两个重要的优化：Hierarchical Softmax、N-gramfastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句，还有使用子字(subword)信息，并通过隐藏表征在类别间共享信息。

2024-05-10 19:32:29 946

原创 MinHash&LSH

MinHash 是一种用于近似集合相似度计算的技术。它被广泛用于大规模数据集中的快速相似度估计，特别是在处理文本、图像和网络数据等领域。MinHash 的基本思想是通过将集合中的元素哈希成一个较小的签名（通常是一个固定长度的整数或比特串），从而快速地比较两个集合之间的相似度。

2024-05-07 20:11:53 766

原创「：3」在python中是什么

[:3]在python中是一个序列，表示获取一个序列开头到索引值为3（不含）的元素之间这段范围的序列。

2024-04-29 14:46:26 512

原创 n-gram模型

N-gram是一种基于统计的语言模型，它基于一个假设，即一个词的出现仅与它前面的N-1个词有关，而与更远的词无关。N-gram模型通常用于自然语言处理(NLP)任务，如文本生成、文本分类、机器翻译、拼写检查和语音识别等。在N-gram模型中，文本被分解为一连串连续的词或字节片段，这些片段被称为grams。模型通过统计这些grams在训练语料库中的出现频率来估计下一个词出现的概率。

2024-04-24 20:58:03 532

原创 Hive,Presto,Spark 共性

Hive、Presto 和 Spark 都是大数据处理工具，都属于大数据处理技术栈，都需要集群环境支持，都可以进行数据处理和分析。

2024-04-23 22:46:45 645

原创聚类与分类的区别

聚类和分类是机器学习中的两个基本概念，两者的主要区别在于用于分类的数据已经预先标记好类别，而用于聚类的数据则没有预先标记的类别。

2024-04-22 14:15:53 3213

原创知乎创作分评估体系

创作分评估体系分为五个维度：创作活跃度、内容优质分、创作影响力、关注者亲密度及社区成就分，有助于用户了解近期的创作表现，每个维度的分值计算原理如下：

2024-04-12 16:54:23 1414

原创滴滴反作弊

网约车黑产市场规模超过10亿元。在巨大利益诱惑下，少数不法分子会恶意制作、经营、传播各类作弊器工具，“帮助”司机作弊、绕过平台安全审核或让低口碑值的司机接“好单”，或利用恶意木马、短信劫持等技术手段去盗取用户打车账号甚至个人信息，从事“刷单”诈骗。

2024-04-07 16:53:04 771

原创 jupyter notebook 配置默认文件路径

Jupyter是一种基于Web的交互式计算环境，支持多种编程语言，如Python、R、Julia等。使用Jupyter可以在浏览器中编写和运行代码，同时还可以添加Markdown文本、数学公式、图片等多种元素，非常适合于数据分析、机器学习等领域。浏览器会自动打开到本地服务器的home目录，如果需要自定义打开目录，可以修改配置文件。

2024-04-03 15:49:06 4155

原创肘方法 Elbow of SSE vs 轮廓系数 Silhouette Coefficient

在聚类算法中，特别是K均值聚类，使用SSE（Sum of Squared Errors）来寻找最优的K值是一种常见的方法。SSE是指每个点到其最近的聚类中心的距离的平方和。当选择不同数量的聚类时，SSE通常会随着聚类数量的增加而减少，因为更多的聚类意味着每个聚类中的点更接近其中心。使用轮廓系数（Silhouette Coefficient）来确定聚类算法中最优的K值是一种评估聚类性能的方法。轮廓系数是一个有效的工具，可以帮助评估不同K值下聚类的质量，但最终的选择应根据具体的数据特性和业务需求综合考虑。

2024-03-27 18:01:03 843

原创 EM算法详解

EM（Expectation-Maximum）算法也称期望最大化算法，曾入选“数据挖掘十大算法”中，可见EM算法在机器学习、数据挖掘中的影响力。EM算法是最常见的隐变量估计方法，在机器学习中有极为广泛的用途，例如常被用来学习高斯混合模型（Gaussian mixture model，简称GMM）的参数；隐式马尔科夫算法（HMM）、LDA主题模型的变分推断等等

2024-03-11 11:07:01 286

原创 F1-score模型评估

F1-score 是一种用于衡量分类模型性能的指标，它综合了精确度（Precision）和召回率（Recall）两个指标。F1-score 的值在 0 和 1 之间，值越接近 1，表示模型的性能越好。在文本分类任务中，F1-score 可以帮助我们了解模型在精确度和召回率方面的平衡情况。

2024-03-08 10:55:32 2179

原创 Simhash在内容去重中的应用

simhash通过将文本转化为二进制签名，利用汉明距离来计算文本之间的相似度

2024-02-29 10:59:49 381

原创 FP-Growth算法全解析：理论基础与实战指导

FP-Growth（Frequent Pattern Growth，频繁模式增长）算法是一种用于数据挖掘中频繁项集发现的有效方法。它是由Jian Pei，Jiawei Han和Runying Mao在2000年的论文中首次提出的。该算法主要应用于事务数据分析、关联规则挖掘以及数据挖掘领域的其他相关应用。

2024-02-27 16:04:03 632

原创【深度好文】simhash文本去重流程

SimHash本身属于一种局部敏感hash，其主要思想是降维，将高维的特征向量映射成低维的特征向量，再通过比较两个特征向量的汉明距离（Hamming Distance）来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。

2024-02-27 12:02:16 671

原创 minHash(最小哈希)和LSH(局部敏感哈希)

在数据挖掘中，有一个比较基本的问题，就是比较两个集合的相似度。关于这个问题，最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素，进而统计这两个集合中相同元素的个数。但是，当这两个集合里的元素数量非常庞大时，同时又有很多个集合需要判断两两之间的相似度时，这种方法就呵呵了，对内存和时间的消耗都非常大。因此，为了解决这个问题，数据挖掘中有另一个方法。

2024-02-26 17:17:48 771

原创社区发现之标签传播算法（LPA）

LPA是一个在图中快速发现社群的算法，LPA重复地将一个节点的标签社群化为相邻节点中出现频率最高的标签，当每个节点的标签在其相邻节点中出现得最频繁时，算法就会停止。

2024-02-23 19:12:47 536

原创 Hive sql ＜＞和 !=

在日常开发中，使用 Hive sql 中的不等于判断符，即和 != ，和 != 都是会把 null 值的数据剔除掉

2024-01-25 16:15:39 623

原创 python中print函数的用法

print() 函数是 Python 中用于输出信息到控制台的内置函数。它可以将文本、变量、表达式等内容打印出来。print() 函数可以接受多个对象作为参数，它们会按照顺序打印出来。可以使用 sep 和 end 参数来修改分隔符和结束符。除了输出到控制台，print() 函数还可以将内容输出到文件中。如果想要立即刷新输出，可以将 flush 参数设置为 True。

2024-01-16 19:29:36 357

原创 tensorflow安装超时问题

设置超时时间，指定安装包源。

2023-11-10 19:44:42 446

原创 conda添加清华镜像源

conda config --set show_channel_urls yes的意思是从channel中安装包时显示channel的url，这样就可以知道包的安装来源了。输入conda config --show channels查看一下是否添加成功。显示所有channel。

2023-11-10 15:18:02 23126 1

原创解决MySQL不能存储Emoji表情的问题

在MySQL 5.5.3之前版本的数据库中，数据库的默认编码是utf8字符集，只支持1-3个字节的字符，也就是只能保存1到3个字节。但现在的emoji表情需要用4个字节才能保存，所以抛出异常。1、将数据表的编码格式设置成utf8mb4_general_ci。最后修改druid数据源的配置，增加一行。此时数据库已经可以支持emoji表情了。2、修改JDBC链接。

2023-11-09 19:45:06 2077 1

原创 TensorFlow: An open-source software library for Machine Intelligence

Google开源的机器学习软件包TensorFlow™ 是一个采用数据流图（data flow graphs），用于数值计算的开源软件库。节点（nodes）在图中表示数学操作，图中的线（edges）则表示在节点间相互联系的多维数据数组，即张量（tensor）。它灵活的架构让你可以在多种平台上展开计算，例如台式计算机中的一个或多个CPU（或GPU），服务器，移动设备等等。TensorFlow 最初由Google大脑小组（隶属于Google机器智能研究机构）的研究员和工程师们开发出来，用于机器学习和深度神经网络

2023-11-08 18:26:48 820

原创 JS实现用户二次确认后再提交表单

JS实现用户二次确认后再提交表单

2023-10-30 19:42:35 779

原创基于情感词典的情感分析方法

计算用户情绪强弱性，对于每一个文本都可以得到一个情感分值，以情感分值的正负性表示情感极性，大于0为积极情绪，小于0反之，绝对值越大情绪越强烈。3、如果情感词前有否定词则将情感词的情感权值乘以-1，如果有程度副词就乘以程度副词的程度值；4、加和所有组的得分，积极情绪得分大于0、消极情绪得分小于0，绝对值越大情绪越强。2、判断每个情感词之前是否存在否定词及程度副词，将其与情感词分为文本中的一个组；1、对文本进行分词，找出文本中的情感词、否定词以及程度副词；

2023-10-25 16:28:18 1074

原创 XGBoost+LR融合

当一个样本点通过某棵树最终落在这棵树的一个叶子结点上，那么在新特征向量中这个叶子结点对应的元素值为1，而这棵树的其他叶子结点对应的元素值为0。下图为混合模型结构。而决策树是一种树形结构，又称为判定树，是运用于分类的一种树结构，其中的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。”所以如何更有效的提取有效的特征是机器学习中的一个hotspot，例如近几年来大火的深度学习方法中神经网络的层数不断增加其实质也是在探索如何更好地从原始数据中得到更为有效的特征表达。

2023-10-14 15:02:53 760

原创机器学习编码分类特征编码LabelEncoder与OneHotEncoder

LabelEncoder是用来对分类型特征值进行编码，即对不连续的数值或文本进行编码。其中包含以下常用方法：fit(y) ：fit可看做一本空字典，y可看作要塞到字典中的词。fit_transform(y)：相当于先进行fit再进行transform，即把y塞到字典中去以后再进行transform得到索引值。inverse_transform(y)：根据索引值y获得原始数据。transform(y) ：将y转变成索引值。

2022-12-20 18:25:05 1004

原创 Python自然语言处理常用库——jieba库

开发者可以指定自定义词典，以便包含jieba词库里没有的词。虽然jieba有新词识别功能。但是自行添加新词可以保证更高的正确率。用法：jieba.load_userdict(file_name) #file_name为文件类对象或自定义词典的路径词典格式和dict.txt一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。filename若为路径或二级制方式打开的文件，则文件必须为UTF-8编码。词频省略时使用自动计算的能保证分出该词的词频。

2022-12-19 16:22:37 734

原创 AI人工智能算法解析&落地实践专栏列表

移动腾讯网 | 推荐系统 embedding 技术实践总结：https://blog.csdn.net/jxq0816/article/details/106383903。广告算法在阿里文娱用户增长中的实践：https://blog.csdn.net/jxq0816/article/details/104791433。腾讯信息流内容理解技术实践：https://blog.csdn.net/jxq0816/article/details/103507870。人工智能、机器学习、深度学习三者之间有什么关系吗？

2022-12-19 15:57:45 1040

原创 Hadoop、HDFS、Hive、Hbase之间的关系

Hbase：是一款基于HDFS的数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。Hive：用户处理存储在HDFS中的数据，hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。

2022-12-18 21:00:38 3895

原创算法工程师必会知识点思维导图

算法工程师必会知识点思维导图

2022-12-18 12:29:58 355

原创 hive编程 | 使用mvn构造udf函数

在阅读本篇博文之前，建议先读下使用原生添加lib的方式构造udf函数。唯一的区别在pom文件的配置。

【1】简历撰写技巧指导【2】应届生标准简历示范（技术类）【3】技术类简洁版简历模板【4】互联网风格简历模板【5】通用简洁版简历模板【6】英文简历模板

2021-08-02

1.威尔逊算法对排名和推荐的影响，知乎的算法是为了优质内容获得更多的曝光而服务的。 • 收藏 • 感谢 • 盐值 • 成为优秀回答者 • 成为付费会员 • 提升盐值 • 实名认证 2.新账号的运营准备工作

2021-09-16

深度学习在美团搜索广告排序的应用实践.pdf

在计算广告场景中，需要平衡和优化三个参与方——用户、广告主、平台的关键指标，而预估点击率CTR(Click-through Rate)和转化率CVR (Conversion Rate)是其中非常重要的一环，准确地预估CTR和CVR对于提高流量变现效率，提升广告主ROI(Return on Investment)，保证用户体验等都有重要的指导作用。传统的CTR/CVR预估，典型的机器学习方法包括人工特征工程 + LR (Logistic Regression)[1]、GBDT(Gradient Boosting Decision Tree)[2] + LR、FM(Factorization Machine)[3]和FFM(Field-aware Factorization Machine)[4]等模型。相比于传统机器学习方法，深度学习模型近几年在多领域多任务(图像识别、物体检测、翻译系统等)的突出表现，印证了神经网络的强大表达能力，以及端到端模型有效的特征构造能力。同时各种开源深度学习框架层出不穷，美团集团数据平台中心也迅速地搭建了GPU 计算平台，提供GPU集群，支持TensorFlow、MXNet、Caffe等框架，提供数据预处理、模型训练、离线预测、模型部署等功能，为集团各部门的策略算法迭代提供了强有力的支持。美团海量的用户与商家数据，广告复杂的场景下众多的影响因素，为深度学习方法的应用落地提供了丰富的场景。本文将结合广告特殊的业务场景，介绍美团搜索广告场景下深度学习的应用和探索。主要包括以下两大部分: · CTR/CVR预估由机器学习向深度学习迁移的模型探索 · CTR/CVR预估基于深度学习模型的线下训练/线上预估的工程优化

2021-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

looklike.pdf

map-reduce.pdf

HTMLCSSJavaScript标准教程：实例版（第2版）习题参考答案.docx

数据仓库与数据挖掘第六章Part6_2 Naive Bayes Bayesian networks朴素贝叶斯.ppt

数据仓库与数据挖掘第六章Part6_5_Rough_Set粗糙集.ppt

数据仓库与数据挖掘第六章Part6_6_SVM支持向量机.ppt

数据仓库与数据挖掘第五章Part5 Clustering聚类.ppt

数据仓库与数据挖掘第三章Part3 An Intruction to Data Mining.ppt

数据仓库与数据挖掘第二章Part2 ETL_AND_OLAP.ppt

SQL Server数据库实验_数据查询与更新_复杂的单表查询.doc

SQL Server数据库实验_数据查询与更新_简单的单表查询.doc

titanic.csv

数据仓库与数据挖掘第一章Part1 Introduction DW.ppt

数据仓库与数据挖掘第六章Part6_4_Genetic_Algorithm遗传算法.ppt

数据仓库与数据挖掘第六章Part6_1 Decision Tree决策树.ppt

数据仓库与数据挖掘第六章Part6_3 Neural Network神经网络.ppt

数据仓库与数据挖掘第六章Part6_0 Classification.ppt

互联网简历撰写技巧.zip

主流app描述信息，包含package_name,app_name,app_info等基本信息

SQL Server数据库实验_创建和修改数据表及数据完整性.doc

SQL Server数据库实验_存储过程与触发器设计.docx

深度学习与问答系统.pdf

神经网络语言模型.pdf

NLP中的注意力机制.pptx

知乎推荐算法和帐号运营2021.pdf

深度学习在美团搜索广告排序的应用实践.pdf

计算广告学第二单元课件.pdf

计算广告学第三单元课件.pdf

计算广告学第四单元课件.pdf

计算广告学第五单元课件.pdf

从贝叶斯公式看AI赋能人脑

计算广告学第六单元课件.pdf

外卖广告机制的理论和实践.pdf

Adaptive Focus for Efficient Video Recognition.pdf

Linux教程.ppt

深度学习与情感分析.pdf

当代大学生的就业与成才.doc

电信运营-计费管理系统的设计与实现.ppt

空空如也