LatinoCaribo-CSDN博客

原创 CDH安装、部署、维护所遇问题与解决

1. jdk安装后javac没反应修改java路径：vi /home/cmccdata/.bash_profileexit，重新登陆2. 打通ssh失败yum install perl检查authorized_keys3. kafka broker安装报错修改磁盘目录权限df -hchmod 775 /srv/0修改brokerIDvi /opt/cloudera/parce...

2019-07-04 10:35:39 885

系统：Centos7；安装方式：rpm1、查看centos版本cat /etc/redhat-release 2、卸载MariaDB （centos7默认自带）查看当前安装的mariadb包： rpm -qa | grep mariadb强制卸载： rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_643、查看是否已经安装了MySQLrpm -qa | grep -i mysqlfind / -iname mysql找到的文件或目录，如果不为空

2020-09-04 17:03:14 384

原创 PyCharm主题更换

1.下载jar主题包http://www.themesmap.com/（网站不稳定，多点几次就好了）2.主题导入File–>Settings–>Color Scheme–>General–>Import Scheme–>*.jar(找到下载的主题包)3.修改字体大小File–>Settings–>Keymap–>搜索increase/decrease4.修改字体颜色File–>Settings–>Col...

2020-08-26 15:31:35 428

原创数据分析师统计知识笔记

一、无偏估计1. 在统计学中，总体参数的估计基本上都是无偏估计。若的数学期望不为，即，（偏高估计）和（偏低估计）则为的有偏估计。2. 无偏性的实际意义是指没有系统性的偏差，统计推断的误差有系统误差和随机误差。无偏性则表示，把这些正负偏差在概率上平均起来，其值为零，即无偏估计量只有随机误差而没有系统误差。3.无偏估计并不总是存在，如服从二项分布的总体，，则的无偏估计就不存在。4.有些问题中，无偏估计很多，则其优良性由它们的方差来决定，方差越小越优良。5.统计学中，将存在无偏估计的参数...

2020-08-11 19:06:57 2027

原创 Spark大数据分析入门笔记

目录一、术语解释二、Spark特征三、Spark整体工作流程四、Spark运行方式一、术语解释RDD（Resilient Distributed Dataset）：弹性分布式数据集，是记录的只读分区集合，是Spark的基本数据结构。RDD代表一个不可变、可分区、里面的元素可并行计算的集合。RDD的依赖关系分为两种：窄依赖(Narrow Dependencies)、宽依赖(Wide Dependencies)。Spark会根据宽依赖窄依赖来划分具体的Stage，依赖可以高效地解决数据容

2020-07-01 17:40:48 1522

原创随机森林、GBDT和xgboost

RF 和 GBDT联系和区别1、RF（随即森林）原理用随机的方式建立一个森林，森林里面有很多的决策树，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。2、RF 优缺点优点：在数据集上表现良好，两个随机性的引入，使得随机森林不容易陷入过拟合。在当前的很多数据集上，相对其他算法有着很大的优势，两个随机性的引入，使得随机森林

2020-05-14 17:28:09 821

原创 Markdown数学符号

https://www.jianshu.com/p/5a27d195678fhttps://www.jianshu.com/p/e74eb43960a1https://www.cnblogs.com/blog4ljy/p/9066624.html

2020-05-12 18:48:49 205

原创 AB-test理解与实战

一、AB-test1、定义：为同一个目标制定两个方案，在同一时间维度，分别让组成成分相同（相似）的用户群组随机的使用一个方案，收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出较好的方案。2、补充概念：显著性检验（significance test）：事先对总体随机变量的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。（注：显著性检验是针对我们对总体所做的假设检验，其原理就是“小概率事件实际不可能性原理

2020-05-12 18:43:36 1000

原创 Adobe Photoshop CC 2019 for Mac安装所遇问题

因版权问题，此文章中不提供下载资源。1. 安装dmg文件时出现error报错需要在terminal里输入sudo xattr -d com.apple.quarantine /你的文件路径/Adobe_Photoshop_CC_2019_ACC_20181015.dmg 再点击install，弹出输入Mac软件安装密码即可正常运行2. 破解包无法安装权限问题，在系统偏好里输入Mac软件安装密码授权。3. 判断是否破解成功破解流程：photoshop安装成功后关闭app；安装破解a

2020-05-09 10:29:52 4939 1

原创 Java小白入门笔记

基础语法Jdk：开发工具包。jre在Jdk内部，用于运行环境。jvm在jre内部，是Java核心——虚拟机。Jdk安装目录的空格要删除,且不要有中文，取消公共jre。命令提示符cmd调用：win+R。其中dir=ls，cls=clear, exit退出。编译：javac 文件名.java（dir看一下是否有文件名.class编译结果）；运行：java 文件名（不要加.class）没有c就...

2020-04-28 10:16:08 399

原创 pyecharts在jupyter notebook中使用报错

建议下载pyecharts(0.5.xx)版本，如果使用 pip install pyecharts 默认安装V1版本(如1.7.1)会出现如下报错：1、Bar模块导入问题from pyecharts import Bar报错：cannot import name ‘Bar’解决办法：from pyecharts.charts import Bar2、Bar 使用报错from p...

2020-04-02 17:04:54 2882

原创网络加速必知

一、定义1、Bras宽带远程接入服务器（Broadband Remote Access Server）是用来完成宽带网络用户的接入、认证、计费、控制、管理的网络设备，它位于网络的边缘，提供宽带接入服务、实现多种业务的汇聚与转发，能满足不同用户对传输容量和带宽利用率的要求，因此是宽带用户接入的核心设备。2、OLTOLT是光线路终端，用于连接光纤干线的终端设备。OLT是主传输，下面能挂很多ON...

2020-03-31 15:57:12 1668

转载数据科学面试问答题库

109个数据科学面试问答我们将数据科学家将会遇到的面试问题分为了六个不同的类别：数据统计、编程、建模、行为、文化，和解决问题类。数据统计（Statistics）编程一般问题大数据PythonR语言结构化查询语言（SQL）建模行为文化契合问题解决能力一、数据统计面试问题统计计算就是数据科学家通过原始数据来做出预测和建模的过程。没有杰出的统计学知识，是很难成为一个成功的...

2020-03-30 14:41:10 1443

原创 TabNine安装激活(pycharm)

Tabnine介绍：https://github.com/zxqfl/TabNine1.下载indows下pycharm：File>settings>plugins;Mac下pycharm：performence>plugins>marketplace（旧版plugins>Install JetBrains Plugins）；2.安装确认安装成功后重启...

2019-09-09 15:21:33 13747 1

原创用户画像参数建模

1.概念用户画像(persona)是建立在一系列属性数据之上的目标用户模型，即真实用户的虚拟代表。通常是根据用户属性类（如用户人口学特征）、用户行为标签类（网络社交活动）、用户消费能力类（消费行为）、用户偏好类（如网络浏览内容、时间）等信息而抽象出的一个标签化的用户模型。2.用途精准营销：精准直邮、短信、App消息推送、个性化广告等。用户研究：指导产品优化，甚至做到产品功能的私人定制等。...

2019-08-27 11:00:34 549

原创 sed常用命令

替换：sed -i ‘s/A/B/g’ /路径/文件名 #把该文件中的A替换成Beg1: sed -i ‘s/cmccdata/publicuser/g’ /home/publicuser/cdn/business/bin/merge_dispatch_min.sheg2: sed -i ‘s/.$/!/g’ regul...

2019-08-26 11:09:09 636

原创 sysctl.conf配置

/etc/sysctl.conf 是一个允许改变正在运行中的Linux系统的接口，包含TCP/IP堆栈和虚拟内存系统的高级选项，修改内核参数永久生效。file-max：进程可以同时打开的最大句柄数，该参数直接限制最大并发连接数。tcp_tw_reuse：参数为1,表示允许将TIME-WAIT状态的socket重新用于新的TCP链接。tcp_keepalive_time：当keepalive...

2019-08-26 10:50:31 737

原创 ifconfig配置

UP:接口已启用; BROADCAST:主机支持广播; RUNNING:接口在工作中; MULTICAST:主机支持多播; LOOPBACK:回包；inet:网卡的IP地址; netmask:子网掩码: broadcast:广播地址; 连接类型:1.Ethernet-以太网,2.HWaddr-硬件mac地址; txqueuelen:网卡设置的传送队列长度；RX packets:正确接收的数据...

2019-08-26 10:34:44 605

原创 Redis常用指令

推荐插件：Redis Desktop Manager连接到redis服务器：221.1xx.1xx.1xx:6379PING #若返回PONG则连接正常info #版本info memory #看内存（内存碎片率稍大于1是合理的，这个值表示内存碎片率比较低，也说明redis没有发生内存交换。但如果内存碎片率超过1.5，那就说明Redis消耗了实际需要物理内存的1...

2019-08-22 17:50:36 181

原创 linux搭建sftp服务器

常见搭建sftp服务器的方法需要修改sshd_config文件并重启sshd将sftp启动配置与sshd区分开：cp -rf /etc/ssh/sshd_config /etc/ssh/sftp_configecho “PermitTTY no” >>/etc/ssh/sftp_config #不允许pty分配sed -i /31000/d /etc/ssh/ss...

2019-08-20 11:24:42 269

原创 Kafka集成

1.安装1.1 在cm主节点服务器上下载包wget http://archive.cloudera.com/kafka/parcels/2.1.2/KAFKA-2.1.2-1.2.1.2.p0.6-el7.parcelwget http://archive.cloudera.com/kafka/parcels/2.1.2/KAFKA-2.1.2-1.2.1.2.p0.6-el7.parcel...

2019-04-28 16:25:56 464

原创算法时间、空间复杂度案例

1. 时间频度一个算法中的语句执行次数称为语句频度或时间频度。记为T(n)。一个算法花费的时间与算法中语句的执行次数成正比例，哪个算法中语句执行次数多，它花费时间就多。2. 算法的时间复杂度在时间频度中，n称为问题的规模，当n不断变化时，时间频度T(n)也会不断变化。一般情况下，若有某个辅助函数f(n),使得当n趋近于无穷大时，T(n)/f(n)的极限值为不等于零的常数，则称f(n)是T...

2019-04-12 17:38:49 206

原创特征工程

1.概念特征工程是把原始数据转变为模型的训练数据的过程，目的是获取更好的训练数据特征。通常分为特征构建、特征提取、特征选择三个部分。特征提取：通过特征转换的方式得到一组具有明显物理或统计意义的特征特征选择：从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余，特征提取有时能发现更有意义的特征属性，特征选择的过程经常能表示出每个特征的重要性对于模型构建的...

2019-04-02 15:34:41 246

原创统计思维-程序员数学之概率统计_源代码

书中相关源代码如下：1-2习题：http://greenteapress.com/thinkstats/nsfg.htmlhttp://greenteapress.com/thinkstats/survey.py1-3习题：http://greenteapress.com/thinkstats/first.py2-1习题：http://greenteapress.com/thinks...

2019-03-26 11:24:38 741

转载 Xshell常用命令

Ctrl + S #锁定当前屏幕Ctrl + Q #解锁Ctrl + Z #暂停Ctrl + C #结束ls #列出文件get #导出文件put #导入文件text #...

2019-03-18 17:00:10 462

原创 Kibana入门介绍

数据添加APM：应用性能的实时监控，如多个应用的性能指标和报错。日志获取（支持Apache logs, Elaticsearch logs, LogStash logs, Nginx logs, Kafka logs, Redis logs等）系统指标安全分析可以先用自带的样本数据熟悉一下Kibana可以上传数据（官方样本数据下载：https://www.elastic.co/g...

2019-03-15 11:13:08 240

原创 Elasticsearch/head插件/Kibana/Metricbeat安装（mac）

一、Elasticsearch 下载安装Elasticsearch下载地址：http://www.elastic.co/downloads/elasticsearch解压后打开bin文件夹中的elasticsearch (前提是电脑中的Java-jdk版本位1.8）访问：http://127.0.0.1:9200 ；出现如下画面为启动成功（用户名是随机的）二、Elasticsearch...

2019-03-14 16:32:31 715

原创 python笔试题

1.求x的n次方：方法一：位运算+循环class Solution: def myPow(self, x, n): if n == 0: return 1 elif n &amp;lt; 0: x = 1/x n = -n ans = 1.0 while n ...

2018-11-15 21:16:00 701

原创概率统计笔试

1.现有21朵鲜花分给5人，若每人分得的鲜花数各不相同，则分得鲜花做多的人至少得到来多少朵？答：设最多的a朵，其余分别是：a-1，a-2，a-3，a-4朵；五人相加取最多的时候至少为21朵，则5a-10&gt;=21；解得a&gt;=6.2；因此至少7朵2.四位小朋友做加法练习，任意写一个六位数，把它的个位数字（不为0）拿到这个六位数最左边一位数字的左边，得到一个新的六位数，然后用它与原...

2018-11-15 21:07:27 1344

原创大数据方向笔试面试题

1.使用大数据训练深度神经网络（Deep Neural Networks , 简称DNN）的方法：SGD: 随机梯度下降。它能够收敛于最小值点，因此当训练数据过大时，用GD可能造成内存不够用，则可用SGD。FTRL: 近似在线学习算法，具有非常好的稀疏性和收敛特性，在ctr预估中大量的使用。RMSProp: 深度学习的最优方法之一。RMSProp算法对梯度计算了微分平方加权平均数。这种做法...

2018-11-15 01:16:36 2391

原创 k近邻学习

1.算法介绍k近邻(k-Nearest Neighbour, 简称kNN) 学习是一种常用的监督学习方法。其工作机制是给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后根据这k个“邻居”的信息来进行预测。分类任务中可以使用==“投票法”==，即选择这k个样本中出现最多的类别标记作为预测结果。回归任务中可以使用==“平均法”==，即将这k个样本的实值输出标记的平均值作为...

2018-10-11 22:16:14 399

原创数据分析师笔试面试知识点总结

2018-10-07 23:38:54 1752

原创机器学习笔试基础

1.对于二分类问题，常用的评价指标是精准度 (Precision) 和召回率 (Recall)，且通常类分为正类、负类。TP：将正类预测为正类数FN：将正类预测为负类数FP：将负类预测为正类数TN：将负类预测为负类数因此：精准率: P = TP/(TP + FP)召回率: R = TP/(TP + FN)F1值: F1 = 2PR/(P + R)2.朴素贝叶斯的基本假设：...

2018-10-07 17:53:04 412

原创 SQL笔试常识

1.关系型数据库中表S结构为：S (SN, CN, grade), 其中SN为学生名，CN为课程名。前两者均为字符型，grade为数值型。问：更正王二的化学成绩为85分。答：UPDATE S SET grade = 85WHERE SN = ‘王二’AND CN = ‘化学’点：数值型数据不用加引号。2.关系型数据模型中，（二维）表格可以被成为关系模式。3.内存数据丢失与系统相关，...

2018-10-06 18:53:00 515

原创 K-means代码实战

Background: Clustering the categories of businesses in Yelp academic datasets through K-Means algorithm.#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sat Oct 6 16:02:17 2018@author...

2018-10-06 17:15:16 337

原创 2019应届生秋招数据分析师小节

背景：应届生、2019秋招、数据分析师（含大数据方向、研发方向、商业分析方向、数据运营方向）考题侧重点：编程、统计（概率统计、案例分析）、算法基础编程：网易、携程统计：腾讯、IBM、美团点评、京东算法基础：联想、富途...

2018-10-06 14:07:00 1730

原创聚类算法之K-means

1.算法流程k-means算法也称K-均值聚类算法。它试图通过基于原型的、划分的距离计算来发现K个使用者预先指定的簇。将一组数据划分为预先设定好的k个簇，也可理解为随机选择k个向量作为初始均值向量。接下来根据均值向量将样本划分到距离最近的均值向量所在的簇中。这是一次迭代过程。重新计算并更新均值向量，不断重复该过程直到前后两次迭代得到的均值向量不再发生变化为止。重新计算并更新均值向量，...

2018-10-05 22:23:23 642

原创聚类算法基础篇

1.聚类(clustering)在无监督 (unsupervised learning) 学习中，训练样本的标记信息是未知的，目的是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。在无监督学习中聚类算法的应用十分广泛。聚类是将数据集划分为若干个通常情况下不相交的子集，每个子集称为一个“簇”(cluster)，每个簇可能对应着一些潜在的类别。聚类的基本原则是：簇...

2018-10-05 03:36:54 699