2018年09月_卢子墨

12月 11月 10月 09月 08月 07月 06月 05月 04月

转载 Apache kudu1.4在CentOS7 的安装与配置(rpm) 的安装与配置

转自：https://blog.csdn.net/jssg_tzw/article/details/72730186Kudu1.4在CentOS7 的安装与配置(rpm)前言Apache Kudu是一个比较新的大数据组建，在国内大规模应用的公司不多，Kudu的安装文档也只能找到官网上的一份，自己按照官网的步骤进行安装的过程中也遇到了一些问题，现记录下完整的安装过程。为了简化操作： ...

2018-09-20 11:14:30 455

转载 CentOS7上Apache impala2.7集成apache kudu1.3

转自：https://blog.csdn.net/jssg_tzw/article/details/73549284Apache impala集成apache kudu1.环境准备1.1.服务器配置ID IP address Hostname Notes 1 192.168.56.181 apollo.dt.com Hadoop Master...

2018-09-20 10:57:32 537

原创关于error: Microsoft Visual C++ 14.0 is required.报错的问题（已解决）

1.error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools； 2.根据其提供的网址：　http://landinghub.visuals...

2018-09-18 14:26:51 2738

原创 linux后台永久启动Kafka、Flume命令(测试通过）

命令如下：（配置好环境变量，普通用户状态下：“$”代表普通用户，“#”代表root用户）1 后台启动Kafka:$ nohup kafka-server-start.sh /home/espai/kafka/config/server.properties 1>/dev/null 2>&1 &2 后台启动Flume: 首位也要加上nohup ...

2018-09-14 10:43:50 14388

原创 pandas.read_csv参数详解

读取CSV（逗号分割）文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见：http://pandas.pydata.org/pandas-docs/stable/io.html参数：filepath_or_buffer : str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any object wi...

2018-09-11 16:49:33 228

翻译 LSA潜在语义分析

【转自：https://blog.csdn.net/roger__wong/article/details/41175967】原文地址：http://en.wikipedia.org/wiki/Latent_semantic_analysis前言浅层语义分析（LSA）是一种自然语言处理中用到的方法，其通过“矢量语义空间”来提取文档与词中的“概念”，进而分析文档与词之间的关系。LSA的基...

2018-09-11 09:11:21 1886

转载 AUC（计算方法）--ROC曲线

转载至 http://blog.csdn.net/pzy20062141/article/details/48711355 一、roc曲线1、roc曲线：接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴：负正类率(false postive rate FPR)特异度，划分实例中所有负例占所有...

2018-09-07 14:52:43 3384

转载真假正负例、混淆矩阵、ROC曲线、召回率、准确率、F值、AP

[转自：https://blog.csdn.net/yimingsilence/article/details/53769861] 一、假正例和假负例假正例（False Positive）：预测为1，实际为0的样本假负例（False Negative）:预测为0，实际为1的样本实际预测中，那些真正例（True Positive）和真负例（True Negative）都不...

2018-09-07 11:21:09 3458

翻译 Do-it-yourself NLP for bot developers

我相信在大多数情况下，聊天机器人的开发者构建自己的自然语言解析器，而不是使用第三方云端API，是有意义的选择。这样做有很好的战略性和技术性方面的依据，我将向你展示自己实现NLP有多么简单。这篇文章包含3个部分：为什么要自己做最简单的实现也很有效你可以真正用起来的东西那么要实现一个典型的机器人，你需要什么样的NLP技术栈？假设您正在构建一项服务来帮助人们找到餐馆。你的用户可能会...

2018-09-05 14:44:20 324 4

转载 6 Tensorflow- 矩阵分解

矩阵分解特征向量和特征值我们在《线性代数》课学过方阵的特征向量和特征值。定义：设A∈Fn×nA∈Fn×n是n阶方阵。如果存在非零向量X∈Fn×1X∈Fn×1使AX=λXAX=λX对某个常数λ∈Fλ∈F成立，则称λλ是A的特征值(eigenvalue)，X是属于特征值λλ的特征向量。设σσ是数域F上向量空间V上的线性变换，如果某个非零向量u∈Vu∈V被σσ映射到自己的常数倍σ(u)=...

2018-09-05 10:35:46 1366

转载隐马尔科夫模型（Hidden Markov Model，HMM）

【转自：https://blog.csdn.net/mingzai624/article/details/52399235】介绍定义wiki上有定义：隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。马可夫模型...

2018-09-04 11:18:12 25300 2

转载 python 结巴分词(jieba)详解

【转自：https://www.cnblogs.com/jackchen-Net/p/8207009.html】“结巴”中文分词：做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentati...

2018-09-03 17:22:00 16223 2

懂得都懂 json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser

2022-04-22

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

分别取对应的文件夹下解压，之后将这两个文件替换到 hadoop-2.*.*/bin目录下即可 winutils.exe、hadoop.dll

2019-04-17

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

（限于文件1.3G大小，分享为云盘下载地址，请自行下载）本书基于Spark2.2.0版本，以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手实战案例入手，循序渐进地全面解析了Spark2.2新特性及Spark内核源码；中篇选取Spark开发中具有代表的经典学习案例，深入浅出地介绍，在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

2019-04-16

TA关注的人

lukabruce的博客

转载 Apache kudu1.4在CentOS7 的安装与配置(rpm) 的安装与配置

转载 CentOS7上Apache impala2.7集成apache kudu1.3

原创关于error: Microsoft Visual C++ 14.0 is required.报错的问题（已解决）

原创 linux后台永久启动Kafka、Flume命令(测试通过）

原创 pandas.read_csv参数详解

翻译 LSA潜在语义分析

转载 AUC（计算方法）--ROC曲线

转载真假正负例、混淆矩阵、ROC曲线、召回率、准确率、F值、AP

翻译 Do-it-yourself NLP for bot developers

转载 6 Tensorflow- 矩阵分解

转载隐马尔科夫模型（Hidden Markov Model，HMM）

转载 python 结巴分词(jieba)详解

json paser 属于idea插件用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark无法启动，日志无报错信息，具体如图片

json paser 属于idea插件 用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密 商业案例 性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark无法启动，日志无报错信息，具体如图片

json paser 属于idea插件用于解析json

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版