自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 文本主题提取--LDA

论文下载链接 提取码:nm62 概念:LDA模型是一个对类似文本语料的离散型数据集合的生成概率模型 。LDA是一个三层的贝叶斯层级模型,集合的每一条数据在一系列主题的基础上作为一个有限的混合被建立模型。每个主题是一系列主题概率混合构建,在文章的上下文中,主题概率模型对文档提供了一个清楚的呈述。因此提出了基于变化的有效近似推断技术和基于先验的贝叶斯参数估计的EM算法。 作用: 此模型可以做文档分类、协同过滤、unigram模型的比较、和LSI模型概率。 目的:从离散的数据中找到一..

2024-06-05 10:16:39 901

原创 Java 中的date与字符串的转换以及日期间隔计算

一、日期与字符串的互相转换 将date转换为string用sdf.format() 将 string 转换为 date 用 sdf.parse() import java.text.SimpleDateFormat;import java.util.Date;SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");Date date = new Date();System.out.println("...

2021-09-23 16:50:35 1048

原创 Geopy进行地址经纬度等转换

Geopy进行地址经纬度等转换目录Geopy进行地址经纬度等转换Geopy是怎样工作的呢?Geopy的下载Geopy的应用Geopy官方文档https://geopy.readthedocs.io/en/latest/#Geopy可以满足地址经纬度转换等操作。Geopy是怎样工作的呢?就像官方说的geopy地理编码由许多不同的服务提供,这些服务与geopy没有任何关联。说到底geopy的地理编码是通过调用API服务得到我们想要的东西。地理编码服务有Googl...

2020-12-31 10:06:38 1100 2

原创 聚类评价指标(轮廓系数 Silhouette coefficient)

聚类评价指标最近在做聚类的项目,聚类得到结果后我们需要知道聚类的好坏,用哪个算法效果比较好。肯定要选择那个最好评价的算法。今天我们就不谈算法只谈算法结果的评价。我也从网上看了很多的别人写的东西,总之是五花八门的。那下面我们言归正传。聚类算法是机器学习算法中的一种无监督算法。那么在生活中我们大多数做项目的话其实数据集都是为标定的。我看到许多人有写到通过有label的样本,计算它的混淆矩阵。这不乏是一种办法,那么今天说的方法其实是一种内部方法,就是说通过聚类后的结果label来计算的一种评价指标。内部有

2020-08-22 22:33:53 21969 3

翻译 XGBOOST算法过程

自从在2014年9月xgboost在kaggle夺得魁首后,xgboost在各种竞赛场合出现频率越来越多。之后将xgboost引入到电子商务的商品推荐算法中,建立分类预测模型,具有速度快、准确率高等优势。xgboost本质上还是GBDT,但是xgboost对loss func做了二阶的泰勒展开,并在目标函数之外加入了正则项整体求最优解,用以权衡目标函数的下降和模型的复杂程度。监督学习的概念...

2020-03-25 19:25:04 621

原创 Jupyter notebook 的默认路径的修改

每次在电脑安装Anaconda之后用jupyter notebook都很麻烦,改变默认后会很方便之后的存贮以及翻阅。第一步:通过 win+r 打开命令行 输入jupyter notebook --generate-config之后会看到jupyter 的配置文件,一般情况下会存在 C盘/user/用户名/.jupyter这个路径下,然后就对jupyter_notebook_conf...

2019-11-10 23:20:09 174

转载 获取分组后取某字段最大一条记录(求每个类别中最大的值的列表)

获取分组后取某字段最大一条记录方法一:(效率最高)select * from test as awhere typeindex = (select max(b.typeindex)from test as bwhere a.type = b.type );方法二:(效率次之)selecta.* from test a,(select type,max(typeindex) t...

2019-08-20 23:26:32 225

转载 pyspark的常用命令

1. 获取SparkSessionspark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()2. 获取SparkContext1. 获取sparkSession: se = SparkSession.builder.config(conf = SparkConf()).getOrCreate(...

2019-07-03 23:19:30 1249

转载 Mysql的多数据处理及优化

这段时间面试遇到了一些关于MySQL优化的问题,很惭愧答得不好,所以回来后就从网上找了一些资料来看,感觉这篇文章写的不错,特将优化部分拿来分享给大家,也是给自己保存干货。对于实践部分大家可以到下面的网站进行阅读。https://blog.csdn.net/chivydrs/article/details/81670475单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分...

2019-07-01 11:54:52 182

原创 决策树(Decision Tree)算法的构成及过程

痛苦总是走在勇敢之前。 -题记一.决策树何为决策树? 决策...

2019-06-12 16:59:53 799

原创 Mysql将分组后的数据按条件合并group_concate

加粗样式@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将...

2019-06-06 20:46:15 5676

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除