是女汉子不是女汉子-CSDN博客

原创推荐系统（一）：不了解推荐系统，基本在被out的队列，岌岌可危

互联网时代流量红利见顶，大厂们纷纷开始精耕流量，千人千面的推荐系统恰恰可以在流量粒度进行优化，从而提升用户与平台的交互频次，进而提升平台转化，营收。在互联网从事数据工作，不了解推荐系统,可以说基本在被out的队列，岌岌可危。这次，就和大家浅显的介绍下推荐系统，不讲高大上的技术，就讲推荐系统的逻辑。一个推荐系统的架构其实并不复杂，基本上就是召回，排序，规则三个部分。召回模型目的...

2020-01-09 11:24:35 374

原创分析师常用的分析模式及其可视化

刚踏入数据分析与挖掘领域的时候，整天只知道和数据打交道，按“教科书”上的流程进行输出。期间，业务对输出的晦涩提出各种质疑，自己也怀疑过岗位的价值与意义，想过退一步转底层开发，也想过进一步转业务产品。这几年，在和业务的磨合中，逐渐体会到，基于业务视角的数据分析/挖掘，对于流量赛道的企业来说是一个不可缺少的部分。自己转换思维后，分析与挖掘不再是对着数据的枯燥游戏，而是变成了以业务为核心，分析与挖掘为工...

2020-01-09 10:49:35 385

原创 linux目录

最近在linux上开发，文件系统和windows的太不一样了，所以了解了下，不是原理层面的，只供理解，起码知道自己在“地图”上的哪个地方。概述bin linux启动和恢复需要的最小功能的可执行文件boot 启动linux的核心文件dev 设备管理etc linux管理需要的配置文件home 使用用户的主目录lib 内核模块和系统最基本的动态链接共享库lost+f...

2020-01-02 10:53:54 267 1

原创 jupyter集成多个开发语言

目前正在linux上搞jupyter开发环境，已经完成了扩展功能的安装，详情移步本人的Jupyter Notebook安装jupyter_contrib_nbextension扩展功能，两大步搞定，本次主要讲在jupyter中集成python3,pyspark,java,scala等开发语言。概述本质是增加jupyter对应的kernel，而jupyter 是通过kernels文件夹下的子...

2019-12-31 11:40:31 783

转载 Git 初始化，仓库

目标：把本地已经存在的项目，推送到github服务端，实现共享。实现步骤： (1). 先从github创建一个空的仓库先从github创建一个空的仓库，并复制链接地址创建仓库复制链接这里写图片描述(2). 初始化本地仓库，并提交内容到本地需要先打开命令行终端，然后通过 cd 命令切换到需要添加到github 的项目的目录下，然后依次执行如下...

2019-12-31 10:00:42 530

原创 Jupyter Notebook安装jupyter_contrib_nbextension扩展功能

步骤Step 1 ：安装 jupyter_contrib_nbextensions 及其依赖包Step 2：安装 javascript and css filesjupyter contrib nbextension install [--user]QAQ:Python3在 linux 上安装扩展功能时 from tornado import stack_context ...

2019-12-31 09:45:48 566

转载 jupyter使用技巧

本文包括如下内容快捷键魔法命令扩展主题设置制作slides 小工具其他技巧基于windows10操作系统。快捷键快捷键规律对文本进行操作的快捷键都是Ctrl Shift Alt等，比如Ctrl + C/V/X/Z/A 对Cell（即jupyter中的单元格）进行操作的快捷键都是Esc，比如Esc + C/V//X/Z。还有一个差别在于，用Ctrl必须和字...

2019-12-30 11:33:29 1544

转载开发工具 | 你真的会用jupyter吗？

前言提起jupyter notebook，应该很多学习过Python的同学都不陌生。虽然用jupyter notebook的同学相对较少，但是提及这款开发工具，很多人都会赞不绝口，“jupyter很强大，交互式、富文本”，很多人都知道jupyter notebook的这几个优点，但是，试问一下，你真的会用jupyter吗？以Python开发为例，我们只需要在windows命令行或者li...

2019-12-30 11:00:37 506

转载大数据计算引擎的发展已经到了第4代，知识你都掌握了吗？

Flink项目是大数据计算领域冉冉升起的一颗新星。大数据计算引擎的发展经历了几个过程，从第1代的MapReduce，到第2代基于有向无环图的Tez，第3代基于内存计算的Spark，再到第4代的Flink。因为Flink可以基于Hadoop进行开发和使用，所以Flink并不会取代Hadoop，而是和Hadoop紧密结合。Flink主要包括DataStream API、DataSet API、Ta...

2019-12-24 17:01:16 465

转载大数据计算引擎分成了 4 代

新一代大数据处理引擎 Apache Flinkhttps://www.ibm.com/developerworks/cn/opensource/os-cn-apache-flink/大数据计算引擎的发展这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，...

2019-12-24 10:25:33 382

转载 Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

近年来，随着企业信息化建设的飞速发展，大数据应用的问题越来越备受关注。很多企业投入大量的人力、物力和财力建设企业大数据平台，平台建设工作涵盖数据采集、数据处理、数据存储、数据服务、数据展示以及数据质量管理各个环节。而数据采集作为企业大数据平台建设的首要环节，是企业大数据平台建设的根本所在，如果数据采集环节技术体系架构可靠性不高、稳定性不强且不易扩展，企业大数据平台建设就失去了意义。尤其是面对数据量...

2019-12-24 10:22:27 1541

转载 Hive窗口函数进阶指南

作为一名数据小哥，在写SQL的漫漫路上，窗口函数犹如一把披荆斩棘的利剑，帮助作者解决了很多繁琐复杂的需求，在此对窗口函数表示感谢。本文在介绍了窗口函数的同时，着重介绍Hive窗口函数的使用，希望读者在看完本篇文章之后，对窗口函数的使用能够有所掌握。值得注意的是本文中的例子使用的是HQL（Hive SQL），本文需要一定的SQL基础，如果想了解基础SQL，请移步数据分析师之快速掌...

2019-12-20 09:30:37 504

转载【Hive 进阶】窗口函数

作为一名数据小哥，在写SQL的漫漫路上，窗口函数犹如一把披荆斩棘的利剑，帮助作者解决了很多繁琐复杂的需求，在此对窗口函数表示感谢。本文在介绍了窗口函数的同时，着重介绍Hive窗口函数的使用，希望读者在看完本篇文章之后，对窗口函数的使用能够有所掌握。值得注意的是本文中的例子使用的是HQL（Hive SQL），本文需要一定的SQL基础，如果想了解基础SQL，请移步数据分...

2019-12-20 09:22:32 286

转载 pyspark dataframe列的合并与拆分

使用Spark SQL在对数据进行处理的过程中，可能会遇到对一列数据拆分为多列，或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("datafr...

2019-12-18 09:37:10 1854

转载 pyspark异常经验总结

Q:NameError: name 'self' is not defined最近开发Python包，遇到一个“NameError: name ‘self’ is not defined”问题。在执行class Tasdfa: def __init__(self,prompt='asdfa',newline=False): self.newline=newl...

2019-12-17 10:49:48 1991

原创 python实现kmeans_学习笔记【总结用的，所以写的简单，小白勿入】

？mappingnp.genfromtxthttps://www.jianshu.com/p/2d423014da0e？异常值处理https://www.cnblogs.com/tecdat/p/9641444.html箱线图观察正常值范围去除异常值？变量分布可视化https://www.cnblogs.com/tecdat/p/9641444.html单变量分布：sns.d...

2019-12-15 21:44:59 129

转载 Hive修改表名，列名，列注释，表注释，增加列，调整列顺序，属性名等操作

Alter Table 语句Hive修改表名，列名，列注释，表注释，增加列，调整列顺序，属性名等操作它是在Hive中用来修改的表。语法声明接受任意属性，我们希望在一个表中修改以下语法。 ALTER TABLE name RENAME TO new_name ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...]...

2019-12-09 14:49:28 225

原创 HDFS作为中间存储引擎：Linux批量导入csv文件到hive

1.合并csv文件cat *.csv > full.csv若需要删除表名：#删除该文件夹下所有csv文件的第一行sed -i "1d" *.csv#删除该文件夹下的所有txt文件第一行sed -i "1d" *.txt#删除前三行 sed -i "1,3d" *.csv方法一：2.将合并文件上传到hdfshdfs fs -put 文件路径 hdf...

2019-12-06 15:14:25 936

原创 HDFS常用命令

HDFS常用命令在 hdfs 文件系统上创建一个 input 文件夹 bin/hdfs dfs -mkdir -p /user/anna/input 将测试文件内容上传到文件系统上 bin/hdfs dfs -put wc.input /user/anna/input 查看上传的文件是否正确 bin/hdfs dfs -cat /use...

2019-12-06 14:45:44 214 1

转载 Hive外部表和内部表区别以及相互转换

Hive建表语句 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name (col_name data_type [COMMENT 'col_comment'], ...) [PARTITIONED BY (col_name data_type [COMMENT 'col_comment'], ...)] [COM...

2019-12-06 14:19:51 186

转载 hive删除EXTERNAL外表

外表不能按一般步骤drop，否则你还得手动去hdfs rm -r xxx文件，并且还可能遇到因为文件太大而不能删除等问题；最好需要执行以下两个步骤：ALTER TABLE xxx SET TBLPROPERTIES('EXTERNAL'='False');drop table xxx;...

2019-12-06 14:08:45 392

转载 pyspark系列--pyspark读写dataframe【看了觉得总结的很好，所以分享给大家，希望加大此文被搜索到的概率】

pyspark读写dataframe1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从pandas.dataframe创建 2.7. 从列式存储的parquet读取 2.8. 从hive读取 3. 保存数据 3.1. 写到cs...

2019-12-02 10:51:37 470

转载配置spark的jupyter notebook kernel -- spark magic

1、下载livy https://livy.incubator.apache.org/解压，进入livy文件夹，然后运行bin/livy-server2、安装sparkmagicpip install sparkmagicjupyter nbextension enable --py --sys-prefix widgetsnbextension下边是可选部分：pip show ...

2019-11-26 10:50:06 755

原创 jupyter notebook搭建pyspark

python3.6不支持pyspark, 好在用的是Anaconda这种神器，可以随意切换python版本。因为我的Spark是1.6的，所以python2.7应该是可以的。首先conda create -n py27 python=2.7 anacondasourceactivatepy27 conda install python=2.7就将当前的python环境切换到...

2019-11-26 10:48:18 395

原创 Spark 官方文档——Configuration配置

Spark可以通过三种方式配置系统:通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性Spark属性Spark属性可以为每个应用分别进行配置，这些属性可以直接通过SparkConf设定，也可以通过set方法设定相关属性。下面展示了...

2019-11-25 15:12:09 448

转载 Linux下查看和添加PATH环境变量

转载自：https://blog.csdn.net/qingkongyeyue/article/details/527332031、先了解一下什么是PATH环境变量（1）环境变量环境变量相当于“快捷键”。一个“HOME=/home/ACCP286”的环境变量指明你在这个电脑上的个人主目录是“/home/ACCP286”，你每次要回到个人主目录时，不需要输入“cd /home/AC...

2019-11-25 14:31:26 230

转载 Linux 添加环境变量的五种方法

链接：https://blog.csdn.net/u011262253/article/details/86083351只对当前shell生效（shell脚本中常用）方法一：$PATH="$PATH":YOUR_PATH方法二：export PATH="$PATH:YOUR_PATH"对所有用户所有shell都生效, 需要root权限（管理员常用）方法一（修改environ...

2019-11-25 14:25:06 326

原创 Spark简介与安装

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好适用于数...

2019-11-25 13:59:43 205

转载【转】两种方法：将PySpark导入Python

原文链接：https://blog.csdn.net/sinat_26599509/article/details/51895999方法一使用findspark使用pip安装findspark：pip install findspark；在py文件中引入findspark：>>> import findspark；>>> findspark.ini...

2019-11-25 11:37:18 938

原创【转】五步完成pyspark：连接spark集群Windows环境搭建

原文链接：https://blog.csdn.net/qq_23860475/article/details/904761971.软件1、anaconda（python3.6）2、spark-2.4.3-bin-hadoop2.7（spark版本要和集群上的一样）3、JDK1.82.python环境配置pip install pyspark这里如果遇到安装超时的情况采用...

2019-11-25 10:00:22 2512 2

原创 sklearn 中tsne可视化之道

原理可以理解成“降维可视化”，具体操作参考如下链接https://www.deeplearn.me/2137.htmlhttps://blog.csdn.net/qq_27584277/article/details/80066657

2019-11-14 20:41:37 1350

转载 hive 卡在stage 99%【转】

往往是数据倾斜问题，解决方案如下https://blog.csdn.net/yisun123456/article/details/81743782

2019-11-14 20:37:04 949

原创 jupyter 集成python2,python3,pysaprk等开发环境

有两种情况一是有外网权限，直接①下载anaconda4.1.0（包含）以上版本，②创建虚拟环境，③虚拟环境中安装开发工具包二是没有外网权限，手动配置①增加对应工具的jupyter kernel；②添加环境变量，以pyspark为例：参考链接：https://blog.csdn.net/moledyzhang/article/details/78850820http...

2019-11-14 20:27:31 162

原创 Java “Unhandled exception type Exception”错误提示 (转)

原因：被强制异常处理的代码块，必须进行异常处理，否则编译器会提示“Unhandled exception type Exception”错误警告。Java中用于处理异常的方式自行处理：可能引发异常的语句封入在try内，而处理异常的相应语句则封入catch块内回避异常：在方法声明中包含throws子句，通知潜在调用者，如果发生了异常，必须由调用者处理。建议自行处理...

2018-11-22 12:03:53 22728

转载 Keras入门（二）模型的保存、读取及加载

本文使用的模型为解决IRIS数据集的多分类问题而设计的深度神经网络（DNN）模型，模型的结构示意图如下：具体的模型参数可以参考文章：Keras入门（一）搭建深度神经网络（DNN）解决多分类问题。模型保存 Keras使用HDF5文件系统来保存模型。模型保存的方法很容易，只需要使用save()方法即可。以Keras入门（一）搭建深度神经网络（DNN）解决多分类问题中的DNN模型...

2018-11-20 10:58:01 825

转载 TensorFlow中对训练后的神经网络参数（权重、偏置）提取

基于TensorFlow可以轻而易举搭建一个神经网络，而且很好地支持GPU加速训练。但基于TensorFlow的预测过程，往往需要在嵌入式设备上才能得以应用。对于我目前做的工作而言，用TF搭建神经网络以及用GPU加速训练过程的主要用处就是：获取训练后的参数（权重和偏置），将这些参数直接放到嵌入式板卡如FPGA中，以其低功耗、高性能、低延时等特点完成嵌入式AI工程。那么，提取出TF训练后的参数变成...

2018-11-20 10:45:15 6711

转载 keras 模型、结构、权重的保存

如何将训练好的网络进行保存，我们可以用pickle或cPickle来保存Keras模型，同时我们可以用下面的方法：一、保存整个模型model.save(filepath)将Keras模型和权重保存在一个HDF5文件中，该文件将包含：模型的结构模型的权重训练配置（损失函数，优化器，准确率等）优化器的状态，以便于从上次训练中断的地方前提是已经安装python的h5py...

2018-11-20 10:28:43 3792

原创保存并加载keras深度学习模型

Keras是一个用于深度学习的简单而强大的Python库。鉴于深度学习模式可能需要数小时、数天甚至数周的时间来培训，了解如何保存并将其从磁盘中加载是很重要的。在本文中，您将发现如何将Keras模型保存到文件中 keras是用于深度学习的简单而强大的 python 库，鉴于深度学习模式可能需要数小时、数天甚至数周的时间来训练，了解如何保存并将其从发磁盘中加载是很重要的。这里，重点讲下怎么...

2018-11-20 10:24:18 1727

原创查看ckpt中节点信息

from tensorflow.python import pywrap_tensorflowimport oscheckpoint_path = MODEL_FILE_CKPTreader = pywrap_tensorflow.NewCheckpointReader(checkpoint_path)var_to_shape_map = reader.get_variable_to_s...

2018-11-19 11:57:01 1260 1

原创 Hive设置时间常量

set CURRENT_YEAR=2018;set CURRENT_MONTH=11;set CURRENT_DAY=9;select * from talenamewhere year >= '${hiveconf:CURRENT_YEAR}'and month>='${hiveconf:CURRENT_MONTH}'and day>='${hiveco...

2018-11-14 14:29:37 2855

空空如也

空空如也