自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

种一棵树最好的时间是十年前,其次是现在

  • 博客(1179)
  • 资源 (42)
  • 收藏
  • 关注

原创 机器学习算法原理专栏目录

机器学习十大算法https://xingqijiang.blog.csdn.net/article/details/82426626机器学习 | LR逻辑回归模型https://xingqijiang.blog.csdn.net/article/details/81607994LR 特征离散化https://xingqijiang.blog.csdn.net/article/details/81607994漫画:逻辑回归https://xingqijiang.blog.csdn.

2021-05-03 12:40:46 1103 8

原创 fasttext.train_supervised参数详解

fasttext.train_supervised函数允许用户通过一系列参数来定制训练过程,‌这些参数包括但不限于学习率(‌lr)‌、‌维度(‌dim)‌、‌周期次数(‌epoch)‌、‌词形(‌wordNgrams)‌、‌最小计数(‌minCount)‌等。‌

2024-08-12 11:53:58 134

原创 Word2Vec.LineSentence详解

Word2Vec是一种用于学习词向量的模型,‌它通过无监督学习的方式,‌从大量的文本数据中学习到每个词的分布式表示,‌即词向量。类进行训练时,‌每个句子都被视为一个独立的训练样本,‌模型通过学习这些样本中的词语组合和上下文关系,‌最终生成每个词的向量表示。‌这种表示方法不仅提高了模型的训练效率,‌还能更好地捕捉到词语之间的语义关系,‌为后续的自然语言处理任务提供了有力的支持。‌通过使用这个类,‌研究人员和开发者可以更容易地将自己的数据集转换成模型训练所需的格式,‌从而加速词向量的学习和应用过程1。

2024-08-12 11:38:42 131

原创 xgb参数详解

参数用于定义学习任务及相应的学习目标。这个参数决定了模型要执行的具体任务类型,例如回归、分类等,以及这些任务的具体形式。这些选项允许用户根据具体的应用场景选择合适的目标函数,以优化模型的学习过程和预测结果。GBoost模型中的。

2024-08-12 11:11:19 136

原创 结巴分词原理

具体来说,结巴分词的前缀词典和后缀词典分别包含了一些常用的前缀和后缀,例如“的”、“是”、“不”、“了”等等,这些前缀和后缀可以用来构建DAG图中的节点,对于每个节点,它的出度连接指向所有可能与该节点组合成词语的后缀节点,从而形成DAG(有向无环图)图。结巴分词是一种中文分词算法,采用基于词频和词汇概率的方法对文本进行切割,将连续的中文字符序列切分成有意义的词,“结”是“精准”的意思,“巴”是“速度”的意思,因此结巴分词也被称为“高性能的中文分词工具”。

2024-05-29 17:29:54 214

原创 FastText:深度学习时代的轻量级文本分类利器

Facebook AI研究院于2016年提出了FastText算法,巧妙地结合了词袋模型与深度学习的优势,实现了高效、准确的文本分类。本文将围绕FastText算法,对其理论基础、工作原理、实现细节、优缺点、应用案例、与其他算法的对比以及未来发展趋势进行全面探讨。

2024-05-19 16:15:55 254

原创 Gini Impurity(基尼不纯度)

基尼不纯度:衡量集合的无序程度,有放回抽样两次,两次样本标签不同的概率。

2024-05-15 17:14:28 164

原创 FastText文本分类原理详解

fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量,fastText会自己训练词向量3、fastText两个重要的优化:Hierarchical Softmax、N-gramfastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。

2024-05-10 19:32:29 447

原创 MinHash&LSH

MinHash 是一种用于近似集合相似度计算的技术。它被广泛用于大规模数据集中的快速相似度估计,特别是在处理文本、图像和网络数据等领域。MinHash 的基本思想是通过将集合中的元素哈希成一个较小的签名(通常是一个固定长度的整数或比特串),从而快速地比较两个集合之间的相似度。

2024-05-07 20:11:53 333

原创 「:3」在python中是什么

[:3]在python中是一个序列,表示获取一个序列开头到索引值为3(不含)的元素之间这段范围的序列。

2024-04-29 14:46:26 129

原创 n-gram模型

N-gram是一种基于统计的语言模型,它基于一个假设,即一个词的出现仅与它前面的N-1个词有关,而与更远的词无关。N-gram模型通常用于自然语言处理(NLP)任务,如文本生成、文本分类、机器翻译、拼写检查和语音识别等。在N-gram模型中,文本被分解为一连串连续的词或字节片段,这些片段被称为grams。模型通过统计这些grams在训练语料库中的出现频率来估计下一个词出现的概率。

2024-04-24 20:58:03 137

原创 Hive,Presto,Spark 共性

Hive、Presto 和 Spark 都是大数据处理工具,都属于大数据处理技术栈,都需要集群环境支持,都可以进行数据处理和分析。

2024-04-23 22:46:45 346

原创 聚类与分类的区别

聚类和分类是机器学习中的两个基本概念,两者的主要区别在于用于分类的数据已经预先标记好类别,而用于聚类的数据则没有预先标记的类别。

2024-04-22 14:15:53 2032

原创 知乎创作分评估体系

创作分评估体系分为五个维度:创作活跃度、内容优质分、创作影响力、关注者亲密度及社区成就分,有助于用户了解近期的创作表现,每个维度的分值计算原理如下:

2024-04-12 16:54:23 174

原创 滴滴反作弊

网约车黑产市场规模超过10亿元。在巨大利益诱惑下,少数不法分子会恶意制作、经营、传播各类作弊器工具,“帮助”司机作弊、绕过平台安全审核或让低口碑值的司机接“好单”,或利用恶意木马、短信劫持等技术手段去盗取用户打车账号甚至个人信息,从事“刷单”诈骗。

2024-04-07 16:53:04 285

原创 jupyter notebook 配置默认文件路径

Jupyter是一种基于Web的交互式计算环境,支持多种编程语言,如Python、R、Julia等。使用Jupyter可以在浏览器中编写和运行代码,同时还可以添加Markdown文本、数学公式、图片等多种元素,非常适合于数据分析、机器学习等领域。浏览器会自动打开到本地服务器的home目录,如果需要自定义打开目录,可以修改配置文件。

2024-04-03 15:49:06 1362

原创 肘方法 Elbow of SSE vs 轮廓系数 Silhouette Coefficient

在聚类算法中,特别是K均值聚类,使用SSE(Sum of Squared Errors)来寻找最优的K值是一种常见的方法。SSE是指每个点到其最近的聚类中心的距离的平方和。当选择不同数量的聚类时,SSE通常会随着聚类数量的增加而减少,因为更多的聚类意味着每个聚类中的点更接近其中心。使用轮廓系数(Silhouette Coefficient)来确定聚类算法中最优的K值是一种评估聚类性能的方法。轮廓系数是一个有效的工具,可以帮助评估不同K值下聚类的质量,但最终的选择应根据具体的数据特性和业务需求综合考虑。

2024-03-27 18:01:03 302

原创 EM算法详解

EM(Expectation-Maximum)算法也称期望最大化算法,曾入选“数据挖掘十大算法”中,可见EM算法在机器学习、数据挖掘中的影响力。EM算法是最常见的隐变量估计方法,在机器学习中有极为广泛的用途,例如常被用来学习高斯混合模型(Gaussian mixture model,简称GMM)的参数;隐式马尔科夫算法(HMM)、LDA主题模型的变分推断等等

2024-03-11 11:07:01 121

原创 F1-score模型评估

F1-score 是一种用于衡量分类模型性能的指标,它综合了精确度(Precision)和召回率(Recall)两个指标。F1-score 的值在 0 和 1 之间,值越接近 1,表示模型的性能越好。在文本分类任务中,F1-score 可以帮助我们了解模型在精确度和召回率方面的平衡情况。

2024-03-08 10:55:32 1284

原创 SnowNLP使用自定义语料进行情感分类模型训练

SnowNLP是一个功能强大的中文文本处理库,它囊括了中文分词、词性标注、情感分析、文本分类、关键字/摘要提取、TF/IDF、文本相似度等诸多功能,像隐马尔科夫模型、朴素贝叶斯、TextRank等算法均在这个库中有对应的应用。

2024-03-05 20:10:58 1870

原创 Simhash在内容去重中的应用

simhash通过将文本转化为二进制签名,利用汉明距离来计算文本之间的相似度

2024-02-29 10:59:49 120

原创 FP-Growth算法全解析:理论基础与实战指导

FP-Growth(Frequent Pattern Growth,频繁模式增长)算法是一种用于数据挖掘中频繁项集发现的有效方法。它是由Jian Pei,Jiawei Han和Runying Mao在2000年的论文中首次提出的。该算法主要应用于事务数据分析、关联规则挖掘以及数据挖掘领域的其他相关应用。

2024-02-27 16:04:03 409

原创 【深度好文】simhash文本去重流程

SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的汉明距离(Hamming Distance)来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。

2024-02-27 12:02:16 171

原创 minHash(最小哈希)和LSH(局部敏感哈希)

在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度。关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数。但是,当这两个集合里的元素数量非常庞大时,同时又有很多个集合需要判断两两之间的相似度时,这种方法就呵呵了,对内存和时间的消耗都非常大。因此,为了解决这个问题,数据挖掘中有另一个方法。

2024-02-26 17:17:48 368

原创 社区发现之标签传播算法(LPA)

LPA是一个在图中快速发现社群的算法,LPA重复地将一个节点的标签社群化为相邻节点中出现频率最高的标签,当每个节点的标签在其相邻节点中出现得最频繁时,算法就会停止。

2024-02-23 19:12:47 276

原创 Hive sql <> 和 !=

在日常开发中,使用 Hive sql 中的不等于判断符,即 和 != , 和 != 都是会把 null 值的数据剔除掉

2024-01-25 16:15:39 273

原创 python中print函数的用法

print() 函数是 Python 中用于输出信息到控制台的内置函数。它可以将文本、变量、表达式等内容打印出来。print() 函数可以接受多个对象作为参数,它们会按照顺序打印出来。可以使用 sep 和 end 参数来修改分隔符和结束符。除了输出到控制台,print() 函数还可以将内容输出到文件中。如果想要立即刷新输出,可以将 flush 参数设置为 True。

2024-01-16 19:29:36 245

原创 tensorflow安装超时问题

设置超时时间,指定安装包源。

2023-11-10 19:44:42 269

原创 conda添加清华镜像源

conda config --set show_channel_urls yes的意思是从channel中安装包时显示channel的url,这样就可以知道包的安装来源了。输入conda config --show channels查看一下是否添加成功。显示所有channel。

2023-11-10 15:18:02 16890 1

原创 解决MySQL不能存储Emoji表情的问题

在MySQL 5.5.3之前版本的数据库中,数据库的默认编码是utf8字符集,只支持1-3个字节的字符,也就是只能保存1到3个字节。但现在的emoji表情需要用4个字节才能保存,所以抛出异常。1、将数据表的编码格式设置成utf8mb4_general_ci。最后修改druid数据源的配置,增加一行。此时数据库已经可以支持emoji表情了。2、修改JDBC链接。

2023-11-09 19:45:06 1483

原创 TensorFlow: An open-source software library for Machine Intelligence

Google开源的机器学习软件包TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU),服务器,移动设备等等。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络

2023-11-08 18:26:48 667

原创 JS实现用户二次确认后再提交表单

JS实现用户二次确认后再提交表单

2023-10-30 19:42:35 416

原创 基于情感词典的情感分析方法

计算用户情绪强弱性,对于每一个文本都可以得到一个情感分值,以情感分值的正负性表示情感极性,大于0为积极情绪,小于0反之,绝对值越大情绪越强烈。3、 如果情感词前有否定词则将情感词的情感权值乘以-1,如果有程度副词就乘以程度副词的程度值;4、加和所有组的得分,积极情绪得分大于0、消极情绪得分小于0,绝对值越大情绪越强。2、判断每个情感词之前是否存在否定词及程度副词,将其与情感词分为文本中的一个组;1、对文本进行分词,找出文本中的情感词、否定词以及程度副词;

2023-10-25 16:28:18 564

原创 XGBoost+LR融合

当一个样本点通过某棵树最终落在这棵树的一个叶子结点上,那么在新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元素值为0。下图为混合模型结构。而决策树是一种树形结构,又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。”所以如何更有效的提取有效的特征是机器学习中的一个hotspot,例如近几年来大火的深度学习方法中神经网络的层数不断增加其实质也是在探索如何更好地从原始数据中得到更为有效的特征表达。

2023-10-14 15:02:53 381

原创 机器学习编码分类特征编码LabelEncoder与OneHotEncoder

LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。inverse_transform(y):根据索引值y获得原始数据。transform(y) :将y转变成索引值。

2022-12-20 18:25:05 841 1

原创 Python自然语言处理常用库——jieba库

开发者可以指定自定义词典,以便包含jieba词库里没有的词。虽然jieba有新词识别功能。但是自行添加新词可以保证更高的正确率。用法:jieba.load_userdict(file_name) #file_name为文件类对象或自定义词典的路径词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。filename若为路径或二级制方式打开的文件,则文件必须为UTF-8编码。词频省略时使用自动计算的能保证分出该词的词频。

2022-12-19 16:22:37 566

原创 AI人工智能算法解析&落地实践专栏列表

移动腾讯网 | 推荐系统 embedding 技术实践总结:https://blog.csdn.net/jxq0816/article/details/106383903。广告算法在阿里文娱用户增长中的实践:https://blog.csdn.net/jxq0816/article/details/104791433。腾讯信息流内容理解技术实践:https://blog.csdn.net/jxq0816/article/details/103507870。人工智能、机器学习、深度学习三者之间有什么关系吗?

2022-12-19 15:57:45 703

原创 Hadoop、HDFS、Hive、Hbase之间的关系

Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。Hive:用户处理存储在HDFS中的数据,hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。

2022-12-18 21:00:38 3543

原创 算法工程师必会知识点思维导图

算法工程师必会知识点思维导图

2022-12-18 12:29:58 257

原创 hive编程 | 使用mvn构造udf函数

在阅读本篇博文之前,建议先读下使用原生添加lib的方式构造udf函数。唯一的区别在pom文件的配置。

2022-12-15 21:30:20 302

从贝叶斯公式看AI赋能人脑

從貝氏機率公式_看AI賦能人腦_ok2

2022-05-17

计算广告学第六单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第五单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第四单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第三单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

计算广告学第二单元课件.pdf

什么是广告? • 广告(Advertising)的定义 广告是由已确定的出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。 • 广告的主体 出资人(sponsor)即广告主(advertiser),媒介(medium),受众(audience) • 广告的本质功能 是借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)

2021-11-03

外卖广告机制的理论和实践.pdf

外卖广告机制的理论和实践.pdf

2021-10-31

深度学习在美团搜索广告排序的应用实践.pdf

在计算广告场景中,需要平衡和优化三个参与方——用户、广告主、平台的关 键指标,而预估点击率CTR(Click-through Rate)和转化率CVR (Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提 高流量变现效率,提升广告主ROI(Return on Investment),保证用户体验 等都有重要的指导作用。 传统的CTR/CVR预估,典型的机器学习方法包括人工特征工程 + LR (Logistic Regression)[1]、GBDT(Gradient Boosting Decision Tree)[2] + LR、FM(Factorization Machine)[3]和FFM(Field-aware Factorization Machine)[4]等模型。相比于传统机器学习方法,深度学习模 型近几年在多领域多任务(图像识别、物体检测、翻译系统等)的突出表现, 印证了神经网络的强大表达能力,以及端到端模型有效的特征构造能力。同时 各种开源深度学习框架层出不穷,美团集团数据平台中心也迅速地搭建了GPU 计算平台,提供GPU集群,支持TensorFlow、MXNet、Caffe等框架,提供 数据预处理、模型训练、离线预测、模型部署等功能,为集团各部门的策略算 法迭代提供了强有力的支持。 美团海量的用户与商家数据,广告复杂的场景下众多的影响因素,为深度学习 方法的应用落地提供了丰富的场景。本文将结合广告特殊的业务场景,介绍美 团搜索广告场景下深度学习的应用和探索。主要包括以下两大部分: · CTR/CVR预估由机器学习向深度学习迁移的模型探索 · CTR/CVR预估基于深度学习模型的线下训练/线上预估的工程优化

2021-10-31

知乎推荐算法和帐号运营2021.pdf

1.威尔逊算法对排名和推荐的影响,知乎的算法是为了优质内容获得更多 的曝光而服务的。 • 收藏 • 感谢 • 盐值 • 成为优秀回答者 • 成为付费会员 • 提升盐值 • 实名认证 2.新账号的运营准备工作

2021-09-16

Adaptive Focus for Efficient Video Recognition.pdf

本次研究工作为提高计算效率,作者对视频识别的空间冗余进行了探讨。发现在视频的每一帧中,信息量最大的区域通常是一个小的 image patch,在不同的帧中平稳地移动。因此,作者将 patch 定位问题建模为一个连续的决策任务,并提出一种基于强化学习的高效空间自适应视频识别方法:AdaFocus。并在 ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2 5 个基准数据上进行了实验,得出比竞争性基线明显更有效率的结果。

2021-08-23

Linux教程.ppt

1.x Linux初步与环境安装。 2.x 常用命令介绍。 3.x vi/vim文本编辑器介绍。 4.x 用户管理。 5.x 进程管理。 6.x 系统文件构成。 7.x 软件包管理。 8.x Shell编程。

2021-08-20

NLP中的注意力机制.pptx

深度学习中的注意力可以广义地解释为重要性权重的向量:为了预测一个元素,例如句子中的单词,使用注意力向量来估计它与其他元素的相关程度有多强,并将其值的总和作为目标的近似值。

2021-08-14

神经网络语言模型.pdf

词向量模型应用 • 利用词向量的语言学特性完成任务 分布假说:语义相似的词,其词向量空间距离更相近 语义相关性、同义词检测、单词类比 • 将词向量作为特征,提高自然语言处理任务的性能 使用静态词向量,在模型训练过程中,只调整模型参数,不调整入词向量 基于平均词向量的文本分类、命名实体识别等 • 将词向量作为神经网络的初始值(动态词向量),提升神经网络模型的优化效果 使用动态词向量,模型训练过程中会调整词向量的初值 基于卷积神经网络的文本分类、词性标注

2021-08-14

深度学习与问答系统.pdf

在知识工程、互联网以及自然语言处理技术的推动下,问答系统 取得了一定进展 数据源:从限定领域向开放领域发展,从小规模向海量发展  提问类型:从受限类型向开放类型发展  参与者:领域专家到普通用户,门槛越来越低  知识贡献:从个人独享到大众知识分享

2021-08-14

深度学习与情感分析.pdf

情感分析是挖掘人们对物品、服务、组织、个人、事物、事件、话题及它们 属性的观点、情感、评价、态度和情绪等 对文本中蕴含的情感进行分析、处理、归纳和推理, 可以预测用户行为和做出应对策略。 互联网上蕴含着丰富的情感信息,其巨大价值引起了科技界、企业界 和各国政府的高度重视,诸多国家和国际组织已将情感分析研究提升 到国家和国际重大战略层面。

2021-08-14

当代大学生的就业与成才.doc

摘要:当今时代,经济全球化进程日益加快,科学技术发展迅猛异常,知识经济浪潮汹涌,给大学生的就业以及职业发展既带来了机遇,也提出了挑战。任何一名大学生在规划职业生涯时,都应考虑现实的外部条件。社会经济的发展,对人才素质的要求越来越高,给大学生的职业发展提出了新的要求。因此,大学生要勇于正视社会的机遇与挑战,正确认识、准确把握大学生就业形势,了解职业发展的趋势,树立正确的择业观,为选择并迈向正确的职业发展道路奠定牢固基础。 关键字:大学生择业观 个人生涯设计

2021-08-14

电信运营-计费管理系统的设计与实现.ppt

XX电信运营商新增一项Open Lab(开放实验室)出租业务,即该电信运营商提供基于Unix平台的实验室环境,选择使用这种业务的用户能够远程登录到实验室中做基于这个实验室环境的一些工作和实验。运营商希望借助先进的计算机技术对访问实验室的用户进行管理和计费,由此实现对此项业务运营的支持与管理。本项目主要包括以下子系统: 采集系统 整合系统 用户管理系统 资费管理系统 管理员管理系统 帐单查询系统 帐务查询系统 用户自服务系统 权限管理系统

2021-08-14

SQL Server数据库实验_存储过程与触发器设计.docx

实验5.1 存储过程的建立与使用 一、实验目的 理解存储过程的概念、作用、建立和调用方法。 二、实验原理 使用CREATE PROCEDURE语句创建存储过程,ALTER PROCEDURE语句修改存储过程,DROP PROCEDURE语句删除存储过程,存储过程有不带参数的、有带输入参数的、有带输出参数(output)的,还可以有带返回值的。创建好的存储过程可以使用EXEC procedure_name语句执行。 实验5.2 触发器的建立与使用 一、实验目的 理解触发器的概念和作用;了解触发器的分类及触发条件;掌握触发器的定义及应用。 二、实验原理 1、 使用CREATE TRIGGER语句定义触发器,ALTER TRIGGER语句修改触发器,DROP TRIGGER语句删除触发器。 2、 触发器分AFTER/FOR和INSTEAD OF两种类型:AFTER/FOR类型的触发器是在相应的触发语句(insert、delete、update)执行完后被触发的。如果触发语句对应的表上有完整性约束,这些完整性约束必须不违背时,相应的触发语句才能执行,然后才能触发对应的AFTER/FOR类型的触发器。INSTEAD OF类型的触发器会在触发语句(insert、delete、update)执行之前被触发,并取代相应的触发语句。 3、 在表或视图上,每个INSERT、UPDATE或DELETE语句只能创建一个INSTEAD OF类型的触发器,无法为有外键约束且指定为级联删除或级联修改的表创建DELETE或UPDATE语句上的INSTEAD OF 类型的触发器。 SQL SERVER为每个触发器都创建了两个临时表INSERTED表和DELETED表,这两个表的逻辑结构与被触发器作用的表一样,用户可以读取这两个表的内容,但不能对它们进行修改,触发器执行完后,这两个表也会自动删除。当执行INSERT时,INSERTED表中保存要向表中插入的所有行;当执行DELETE时,DELETED表中保存要从表中删除的所有行;当执行UPDATE时,修改前的行保存在DELETED表中,修改后的行保存在INSERTED行中。

2021-08-11

SQL Server数据库实验_创建和修改数据表及数据完整性.doc

实验2 创建和修改数据表及数据完整性 一、实验目的 熟悉有关数据表的创建和修改等工作,理解数据库模式的概念,了解主键约束、外键约束、UNIQUE约束和CHECK约束的创建和应用。要求学生熟练掌握使用企业管理器和T—SQL语句CREATE TABLE、ALTER TABLE及DROP TABLE语句对数据表进行管理。 二、实验原理 在企业管理器中实现表的创建和修改等工作及使用T—SQL语句CREATE TABLE、ALTER TABLE及DROP TABLE来实现数据表的创建、修改及删除。 三、实验设备 安装有SQL SERVER 2000的计算机。 四、实验内容 示例是某公司的产品销售数据库company,company数据库中存在人事表employee、客户表customer、销售表sales、销售明细表sale_item、产品表product。

2021-08-11

SQL Server数据库实验_数据查询与更新_简单的单表查询.doc

一、实验目的 熟练掌握用SELECT语句实现简单的单表查询。掌握SELECT子句、FROM子句、WHERE子句及ORDER BY 子句的用法。 二、实验原理 用SELECT语句实现简单的单表查询。在SELECT子句中用TOP关键字来限制返回到结果集中的记录数目,用DISTINCT关键字从结果集中去掉重复的记录。WHERE子句中用关系比较符、[NOT] BETWEEN、[NOT] IN、LIKE、 IS [NOT] NULL及逻辑运算符构成查询条件,对结果集中的记录进行筛选。ORDER BY子句将根据查询结果集中一个或多个字段对查询结果进行排序。 三、实验设备 安装有SQL SERVER 2000的计算机。 四、实验示例 1.查找表中所有姓刘的职工的工号,姓名,部门,薪水 2.查找所有定单金额高于20000的所有客户编号 3.查找业务部或会计部的女员工的基本信息。 4.选取编号界于‘C0001’和‘C0004’的客户编号、客户名称、客户地址。 5.选取销售数量最多的前5条订单订单号、数量。

2021-08-11

SQL Server数据库实验_数据查询与更新_复杂的单表查询.doc

一、实验目的 熟练掌握SELECT查询语句中的Group by 子句、Having子句的用法,以及汇总函数的使用。 二、实验原理 在查询语句中用Group by子句进行分组; 用Having子句对分组进行筛选。 使用MAX(),MIN(),COUNT(),SUM(),AVG()等函数在查询结果集中生成汇总值。 三、实验设备 安装有SQL SERVER 2000的计算机。

2021-08-11

数据仓库与数据挖掘第一章Part1 Introduction DW.ppt

数据仓库和数据挖掘技术是基于大规模数据库的决策支持系统环境的核心。

2021-08-07

数据仓库与数据挖掘第二章Part2 ETL_AND_OLAP.ppt

基于SQL SERVER的数据仓库架构,Microsoft SQL Server 2012 Integration Services (SSIS) 平台可以生成高性能数据集成解决方案,其中包括为数据仓库提取、转换和加载 (ETL) 包 Microsoft SQL Server提供两种ETL方式: 1、导入和导出数据 2、SQL Server Data Tools

2021-08-07

数据仓库与数据挖掘第三章Part3 An Intruction to Data Mining.ppt

数据库中的知识发现(Knowledge Discovery in Database,简称KDD)是一个从数据库中挖掘有效的、新颖的、潜在有用的和最终可理解的模式的复杂过程。 1)数据是一组事实的集合,它可以来自不同的数据源,可以是规则数据,也可以是非规则数据。 2)模式是关于数据子集的某种语言描述的表达式或某种可应用的模型,又称为知识。 3)模式必须是有效的、新颖的、潜在有用的和最终可理解的,分别用可信度、新颖度、可用度和简单度对其进行评价

2021-08-07

数据仓库与数据挖掘第五章Part5 Clustering聚类.ppt

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。

2021-08-07

数据仓库与数据挖掘第六章Part6_6_SVM支持向量机.ppt

支持向量机(Support Vector Machine,简称SVM )是由贝尔实验室研究者Vapnik等于1995年首先提出的一种新的机器学习理论。 SVM主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。 SVM一个重要的优点是可以处理线性不可分的情况,在解决小样本、非线性及高维(避免维灾难)模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 SVM独特的特点:使用训练集的一个子集来表示决策边界,该子集称作支持向量。

2021-08-07

数据仓库与数据挖掘第六章Part6_5_Rough_Set粗糙集.ppt

现实生活中有许多含糊现象并不能简单地用真、假值来表示﹐如何表示和处理这些现象就成为一个研究领域。早在1904年谓词逻辑的创始人G.Frege就提出了含糊(Vague)一词,他把它归结到边界线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类。

2021-08-06

数据仓库与数据挖掘第六章Part6_4_Genetic_Algorithm遗传算法.ppt

遗传算法(Genetic Algorithms,GA)是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。它模拟了生物的繁殖、交配和变异现象,从初始的种群,产生一群更适应环境的后代。

2021-08-06

数据仓库与数据挖掘第六章Part6_3 Neural Network神经网络.ppt

人工神经网络(Artificial Neural Network,ANN)是对人类大脑系统特性的一种描述。简单地讲,它是一种数学模型,可以用电子线路来实现,用计算机程序来模拟,是人工智能的一种方法。神经网络通过对大量历史数据的计算来建立分类和预测模型。

2021-08-06

数据仓库与数据挖掘第六章Part6_2 Naive Bayes Bayesian networks朴素贝叶斯.ppt

贝叶斯分类是统计学方法。他们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。贝叶斯分类主要是基于贝叶斯定理,通过计算给定样本属于一个特定类的概率来对给定样本进行分类。

2021-08-06

数据仓库与数据挖掘第六章Part6_1 Decision Tree决策树.ppt

决策树(decision tree)类似于流程图的树结构,由一个根节点,一组内部节点和一组叶节点组成。每个内部节点(包括根节点)表示在一个属性上的测试,每个分枝表示一个测试输出,每个叶节点表示一个类,有时不同的叶节点可以表示相同的类。

2021-08-06

数据仓库与数据挖掘第六章Part6_0 Classification.ppt

分类是数据挖掘的基本功能之一。 分类问题是一个普遍存在的问题,有许多不同的应用: 根据Email的标题和内容过滤垃圾邮件 根据核磁共振扫描的结果区分肿瘤是良性或恶性 信用分级、市场调查、图像模式识别… …

2021-08-06

HTMLCSSJavaScript标准教程:实例版(第2版)习题参考答案.docx

HTML/CSS/JavaScript标准教程:实例版(第2版)习题参考答案,为每章选择题,填空题的参考答案。

2021-08-03

互联网简历撰写技巧.zip

【1】简历撰写技巧指导 【2】应届生标准简历示范(技术类) 【3】技术类简洁版简历模板 【4】互联网风格简历模板 【5】通用简洁版简历模板 【6】英文简历模板

2021-08-02

map-reduce.pdf

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

2021-08-02

looklike.pdf

微信看一看的精选文章推荐大家应该都用过,微信团队在今年发表了一篇文章来专门介绍精选推荐的算法实现细节(Real-time Attention based Look-alike Model,简称RALM算法),这就是我们这篇文章要讲解的内容。基于这篇文章的描述,再结合自己的理解,我来带大家一起解读一下这篇基于look-alike模型的实时推荐算法的核心亮点。

2021-08-02

titanic.csv

机器学习泰坦尼克号数据集,Titanic - Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics

2021-06-11

主流app描述信息,包含package_name,app_name,app_info等基本信息

主流app描述信息,包含package_name,app_name,app_info等基本信息

2021-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除