TURING.DT-CSDN博客

原创 CentOS7快速安装MySQL5.7

在CentOS中默认安装有MariaDB，这个是MySQL的分支，但为了需要，还是要在系统中安装MySQL，而且安装完成之后可以直接覆盖掉MariaDB。1 下载并安装MySQL官方的 Yum Repository[root@localhost ~]# wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 使用上面的命令就直接下载了安装用的Yum Repository，大概25KB的样子.

2021-07-17 10:37:05 139

原创最大边界相关算法MMR(Maximal Marginal Relevance) 实践

NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容，这样读者就能够通过最少的文字，了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义，所以在做长文本分类任务时，我们可以采用文本摘要算法将长文本的摘要抽取出来，在采用短文本分类模型去做文本分类，有时会起到出奇的好效果。文本摘要自动生成算法文本摘要抽取算法主要分为两大类：一种是生成式：生成式一般采用的是监督式学习算法，最常见的就是sequence2sequ...

2021-05-26 13:58:20 2620

原创使用Java调取Python训练的模型

在工业界，我们经常会使用 Python 或 R 来训练离线模型，使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。一、PMMLPMML 是 Predictive Model Markup Language 的缩写，翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言，用于表达数据挖掘模型，可以用来在不同的应用程序中交换模型。也就是说它定义了一个标准，不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理

2021-05-06 14:40:47 4069

原创使用nginx反向代理解决端口跨域的问题

场景描述：web前端代码和后端代码在同一台服务器上，使用不同的端口，在使用js调用的时候出现跨域访问的问题，我们使用nginx反向代理解决这个跨域的问题。公网IP是49.23.11.2实现web前端调用http://49.232.119.23:8899/api/echarts/list解析跳转到http://127.0.0.1:8822/[root@prod logs]# cat /usr/local/nginx/conf/conf.d/text.confserver {...

2021-04-29 12:45:06 1176

原创 IT开发团队分工及内容

前后端的概念前端1.前台（用户用的）2.后台（职员用的，老板，财务，运营人员，客服，运维）后端1.服务器（nginx(分发请求的操作器)，2.uwsgi(处理http请求的服务器)，3.django(接收请求，返回响应)，4.mysql，redis）原型图1.产品经理2.提供产品的功能，操作，逻辑效果图 1.ui人员 2.提供给前端人员，根据效果图，编写html代码前端页面 1.前端人员 2.画页面 3.调接口后端接口...

2021-04-12 11:17:26 1828

原创 Spark任务内存优化记录

前两天又接了一个Spark任务，倒不复杂，依然是检索HDFS上的日志数据这样的事情。不过瞅着组内跑着十几二十个任务内存一共只有160来G的yarn集群，有些欲哭无泪。事情还是要做的，反正执行时间要求不太严格，只能想办法尽量压缩内存的占用了。先说下背景：现在使用的yarn集群由8个容器组成，每个容器的内存大概20G；工作内容是检索数据，源数据大概1T左右，取出来的目标结果数据在2~8G这样子。最开始的时候查询任务是直接使用sparkSql来完成。随着数据量的上升很快就遇到了最经典的两个问题：Sta

2021-02-20 11:17:39 466

原创 redis操作 + StrictRedis使用（实用命令）

Redisstring类型字符串类型是 Redis 中最为基础的数据存储类型。它在 Redis 中是二进制安全的，这便意味着该类型可以接受任何格式的数据。如JPEG图像数据或Json对象描述信息等。在Redis中字符串类型的Value最多可以容纳的数据长度是512M。set:#设置键值:set key value#设置键为name值为xiaoming的数据set name xiaomingsetex：#设置键值及过期时间，以秒为单位setex...

2020-12-02 13:55:20 4103

原创推荐展示：信息流列表的刷新和加载

在信息流推荐业务中，用户浏览过程中涉及到上拉和下拉动作，下文解决如何实现相关操作。问：上拉加载和下拉刷新，请求的数据有什么不同？答：这是个概念性问题，上拉加载为刷新，下拉加载为分页。（是不是读起来感觉有点怪怪的）这其实也是一个表达习惯或认知问题，就像左滑/右滑、南风/北风一样。（南风是从南方吹来的风，气象上把风吹来的方向确定为风的方向。）比如同事告诉你在APP上“往下滑，找到某某发来的消息”，但此时你的动作却是向上滑。另一个场景是在PC端拖动滚动条浏览长页面，当我们希望向下浏览时，是向下拖动滚动条

2020-11-12 11:58:31 2440 2

原创 Python实现基于用户的协同过滤推荐

协同过滤推荐系统在我们的日常生活之中无处不在，例如，在电子商城购物，系统会根据用户的记录或者其他的信息来推荐相应的产品给客户，是一种智能的生活方式。之所以叫协同过滤，是因为在实现过滤推荐的时候是根据其他人的行为来做预测的，基于相似用户的喜好来实现用户的喜好预测。简要介绍：通过找到兴趣相投，或者有共同经验的群体，来向用户推荐感兴趣的信息。举例，如何协同过滤，来对用户A进行电影推荐？答：简要步骤如下找到用户A(user_id_1)的兴趣爱好找到与用户A(user_id_1)...

2020-10-12 18:45:07 1088

原创使用Gensim模块训练词向量

如果在以词为基本单元输入的自然语言处理任务中，都避免不了使用词的表示，词的表示有很多种，这里主要介绍的就是词向量，word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，那么我们知道对于word2vec来说，不论的Skip-Gram models还是CBOW models，他们的输入以及输出都是以单词为基本单位的，只是他们对应的输入以及输出不一样：CBOW models：输入为多个上下文单词，输出目标为一个单词；Skip-Gram models：输入为单个词

2020-08-20 19:34:34 1706

原创 Pyspark Word2Vec + jieba 训练词向量流程

摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式:自定义词典,语料库均为pyspark dataframe,停用辞典不大,直接使用txt.1 create spark我的pyspark参数设置如下:def create_spark(): sparkconf = SparkConf('jianwangzhilai') \

2020-08-13 20:15:20 1057

原创 Pyspark机器学习之Word2Vec（推荐系统内容相似）

Word2Vec简介Word2Vec是一个词嵌入方法，可以计算每个单词在给定的语料库环境下的分布式向量，如果两个单词的语义相近，那么词向量在向量空间中也相互接近，判断向量空间的接近程度来判断来两个单词是否相似。Word2Vec数学原理首先导入Word2Vec所需要的包，并创建可以代表文档的词语序列from pyspark.ml.feature import Word2Vecfrom pyspark.sql import SparkSessionspark= SparkSession

2020-08-13 20:07:19 1160

原创 Spark调优:提交job资源参数调优及内存模型调优

【场景】Spark提交作业job的时候要指定该job可以使用的CPU、内存等资源参数，生产环境中，任务资源分配不足会导致该job执行中断、失败等问题，所以对Spark的job资源参数分配调优非常重要。spark提交作业，yarn-cluster模式示例：./bin/spark-submit\--class com.ww.rdd.wordcount \--master yarn \--deploy-mode cluster \--executor-memory 4G \--num.

2020-06-23 17:39:09 657

原创 pyspark提交代码到yarn模式，报错ImportError: No module

上一篇：PySpark任务在YARN集群上运行关联python包numpy pandas scipy 等问题：在提交ALS.train代码到yarn模式的时候，会出现如下报错：import numpy as npImportError: No module named numpy说pandas的的dependency numpy包不存在，但事实上install pandas时，numpy必定是已经装过的，所以就到处找，应该是环境没有设置解决方式：1. 创建虚拟python环境.

2020-06-23 15:20:45 1711

原创 Spark ALS 协同过滤（CF）如何将Str类型的userID或itemID转换为Rating中要求的int类型

/*** 问题：* 在对数据进行训练时，Rating要求的是int,int,double，但是现有的数据是long,string,double类型，使用toInt进行转换时依然会报错，这是因为long类型转换成int类型已经超出了int的最大值。** 解决思路：* 创建两张映射表，将long类型的字段映射成int类型(使用row_number()添加自增序列)，然后拿映射的* 字段进行训练，训练完成后，再将映射的字段转换成原有字段，而后进行推荐。*...

2020-06-09 11:48:45 934

原创 spark DataFrame 基本操作函数

DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组，返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组，返回dataframe集合所有的行3、 count() 返回一个number类型的，返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如果

2020-06-09 11:34:37 2487 3

原创 SuperSet logo修改、导出csv中文乱码、sql查询超时问题解决(默认30s)问题处理

一、网页标题及logo修改1、网页标题修改vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.pyreturn self.render_template('superset/basic.html',entry='welcome',title='Superset',bootstrap_data=json.dumps(payload, default=utils.json_iso_dttm_

2020-05-25 11:56:09 2908

原创在广告/搜索/推荐系统中对展示结果打散的通用鲁棒算法

摘要：之所以同时提到广告/搜索/推荐三个系统，是因为这三者有一定的相似性，即通过一次请求（基于上下文、用户场景、关键词等）给用户呈现一篮子元素，这些元素包括如文章、商品、活动、专辑、音乐、视频等等。这一篮子需要展示的元素尽管是根据权重进行过排序，但一个很常见的问题就是基于视觉效果的考虑需对这个列表进行类别打散，最常见的一个例子是在电商领域，对推荐的商品进行类目/品牌等属性打散开，从而增加阅读舒适性...

2020-04-10 22:17:30 2008

原创 superset配置LDAP(MSFT AD)

superset配置ldap这块调试了好久，一直不能配置通，各种查，网上一些教程都是针对openldap的设置，我这边ldap服务器是微软的MSFT AD，最后也是结合网上的信息各种尝试，终于调试通了，特此单独记录一下，帮助需要的朋友。superset安装篇：Linux下安装Superset实践1、安装LDAP依赖pip install Flask-LDAP2、修改配置（supe...

2020-04-02 14:56:43 2805 5

原创使用钉钉机器人对业务异常进行告警（Linux）

添加钉钉机器人目前个人已知的钉钉机器人只能存在于钉钉群，钉钉群的建群需求是至少 3 人，当然，你建群之后可以把其它人请出去。【1】首先，我们进入一个钉钉群创建我们的机器人：【2】目前钉钉已经存在了一些项目的机器人，你可以根据自己的选，当然，我们本次就用自定义的，添加一个名为 HELLO ROBOT 机器人：安全设置目前有3种方式：（1）方式一，自定义关键词（最简单的方...

2020-03-26 11:47:00 6523

原创 Linux下安装Superset实践

一、安装conda create --name super python=3.6yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel根据官方文档操作，在执行到fabmanager create-admi...

2020-03-17 18:42:09 1737

原创通过Spark访问Hbase的Hive外部表（hive on hbase的表）

业务处理的过程中，使用到pyspark访问hive，直接访问没有问题，后面遇到使用pyspark访问hive关联hbase的表（hive on hbase），就出现报错了。首先集群已经可以通过spark-sql读取hive的数据，然后进行如下配置。1.拷贝如下jar包到${spark_home}/jars（spark2.0之前是${spark_home}/lib）: hba...

2020-02-24 15:16:05 2588 1

原创 pyspark读取hive数据写入到redis

1、首先把redis包引入工程，这样就不需要在集群里每台机器上安装redis客户端。$pip install redis$cd /usr/local/lib/python3.6/dist-packages/ 找到自己环境的路径$zip -r redis.zip redis/*$hadoop fs -put redis.zip /user/data/2、在代码里使用 addPyFile加...

2020-02-19 10:57:55 3624 2

原创 Linux CentOS7安装Hive2.3并配置sparkSQL访问Hive

一、安装mysqlyum install wgetwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpmrpm -ivh mysql-community-release-el7-5.noarch.rpmyum install mysql-server启动mysqlservice mysqld ...

2020-01-13 19:23:50 482

原创 Spark ALS算法理解

ALS算法ALS的意思是交替最小二乘法（Alternating Least Squares），它只是是一种优化算法的名字，被用在求解spark中所提供的推荐系统模型的最优解。spark中协同过滤的文档中一开始就说了，这是一个基于模型的协同过滤（model-based CF），其实它是一种近几年推荐系统界大火的隐语义模型中的一种。隐语义模型又叫潜在因素模型，它试图通过数量相对少的未被观察到的底层原...

2020-01-09 14:14:08 1886

原创 pyspark读取hive数据实例

使用pyspark读取hive中的数据，测试代码：vi test.py#!-*- coding:utf-8 -*-from pyspark import SparkConf, SparkContextfrom pyspark.sql import HiveContextconf = (SparkConf().setMaster("yarn").setAppName("My ap...

2020-01-07 17:48:01 6251

原创 model.save(sc,'fname')异常Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError

最近在使用pyspark保存model的时候出现Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError报错，网上搜索了一下找下如下解决方案，有效。解决方法：操作步骤一1.连接上提交spark-submit的服务器，输入下面命令，可以看看默认的栈大小，我的是1Mjava -XX...

2020-01-07 15:50:24 927

原创 Redis缓存数据库安装及python读写redis数据

一、安装Redis1.获取redis资源wget http://download.redis.io/releases/redis-4.0.8.tar.gz2.解压tar xzvf redis-4.0.8.tar.gz3.安装cd redis-4.0.8makecd srcmake install PREFIX=/usr/local/redis（如果有执行出...

2019-12-27 19:07:36 832

原创 xgboost中XGBClassifier()参数

#常规参数booster gbtree 树模型做为基分类器（默认） gbliner 线性模型做为基分类器silent silent=0时，输出中间过程（默认） silent=1时，不输出中间过程nthread nthread=-1时，使用全部CPU进行并行运算（默认） nthread=1时，使用1个CPU进行运算。scale_pos_we...

2019-12-24 16:30:33 4909

原创在Linux Centos7 上使用pyspark Notebook

首先安装anaconda 参考:https://blog.csdn.net/levy_cui/article/details/80898739https://blog.csdn.net/levy_cui/article/details/51143153anaconda安装时已经有了jupyter notebook，所以只需要配置好就可以！一、添加root启动权限如果输入 j...

2019-12-06 11:47:08 493

原创 PySpark任务在YARN集群上运行关联python包numpy pandas scipy 等

使用pyspark的时候代码会依赖numpy pandas scipy 等，这时候需要将相关的环境包一起提交，如何提交环境包文件，参考如下：Spark Application可以直接运行在YARN集群上，这种运行模式，会将资源的管理与协调统一交给YARN集群去处理，这样能够实现构建于YARN集群之上Application的多样性，比如可以运行MapReduc程序，可以运行HBase集群，也可以...

2019-12-04 11:46:32 2259

原创 PCA降维（主成分分析）处理训练集后，线上正式数据应该如何处理？

训练数据集在使用PCA进行数据降维后，用基本分类器进行训练得到一个分类模型，那线上预测真实数据应该怎么办？应该不能直接放入训练的分类模型中去吧？答：当然不能，要用你从训练数据里面得到的那个降维矩阵对测试数据降维，然后再送给分类器。如何理解？如何操作？参考PCA+SVM的模型的保存及使用训练模型的代码，仔细阅读注释内容import numpy as npimport osim...

2019-10-21 20:01:06 8740 1

原创 GBDT+LR算法进行特征扩增

简介CTR估计也就是广告点击率预估，计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR（Logistic Regression）是广义线性模型，与传统线性模型相比，LR通过Logit变换将函数值映射到0~1区间，映射后的函数就是CTR的预估值。LR模型十分适合并行化，因此对于大数据的训练十分有效。但是对于线性模型而言，学习能力是有限的，因此需要大量的特征工程预先分析出有效的特征或者是...

2019-10-14 14:44:15 757

原创自动机器学习之Auto-Keras入门

对于训练深度学习，设计神经网络结构是其中技术含高最高的任务，优秀的网络架构往往依赖建构模型的经验，专业领域知识，以及大量的算力试错。实际应用中往往基于类似功能的神经网络微调生成新的网络结构。Auto-Keras是一个离线使用的开源库，用于构建神经网络结构和搜索超参数，支持RNN，CNN神经网络，它使用了高效神经网络搜索ENAS，利用迁移学习的原理将在前面任务中学到的权值应用于后期的模型中，效率...

2019-09-29 17:40:18 927

原创 Auto Machine Learning 自动化机器学习笔记

适读人群：有机器学习算法基础1. auto-sklearn 能 auto 到什么地步？在机器学习中的分类模型中：常规 ML framework 如下图灰色部分：导入数据-数据清洗-特征工程-分类器-输出预测值 auto部分如下图绿色方框：在ML framework 左边新增 meta-learning，在右边新增 build-ensemble，对于...

2019-09-27 11:50:36 2846

原创自动机器学习之auto-sklearn入门

当我们做完了特征工程之后，就可以代入模型训练和预测，对于模型的选择及调参，主要根据分析者的经验。在具体使用时，经常遇到同一批数据，同一种模型，不同的分析者得出的结果相差很多。前面学习了几种常用的机器学习方法原理以及适用场景，对于完全没有经验的开发者，只要有足够时间，尝试足够多的算法和参数组合，理论上也能达到最优的训练结果，同理程序也能实现该功能，并通过算法优化该过程，自动寻找最优的模型解决方案...

2019-09-27 10:44:50 1982 4

原创机器学习特征工程经验总结一

这块内容分为两篇文章，有一点长，但内容很实用，建议耐心的看一下。机器学习特征工程经验总结一机器学习特征工程经验总结二--------------------------------------------很多人其实非常好奇BAT里机器学习算法工程师平时工作内容是怎样？其实大部分人都是在跑数据，各种map-reduce，hive SQL，数据仓库搬砖，数据清洗、数据清洗、数据清洗，业务分...

2019-09-05 14:55:01 1618

原创机器学习特征工程经验总结二

机器学习特征工程经验总结一机器学习特征工程经验总结二--------------------------------------------如何做特征处理和构建特征处理和构建一般对以下几种数据类型做处理：数值型类别型时间型文本型统计型组合特征一、数值型1 幅度调整/归一化：python中会有一些函数比如pre...

2019-09-05 14:44:34 1109

原创特征构建：生成多项式特征

解释下特征构建、特征抽取和特征选择：1、当数据拿到手里后，首先需要从现有数据中挑选或将现有数据进行变形，组合形成新特征，此过程称为特征构建。2、当特征维度比较高，通过映射或变化的方式，用低维空间样本来表示样本，称为特征抽取。3、从一组特征中挑选出一些最有效的特征，以达到降低维度和降低过拟合风险的目的，称为特征选择。机器学习，一些比赛竞赛中，通常会给一定的特征数据进行分类或者回归预测。有...

2019-09-05 14:30:13 2438

原创 Keras CNN图像实战

Cifar-10Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar-10由60000张32*32的RGB彩色图片构成，共10个分类。50000张训练，10000张测试（交叉验证）。这个数据集最大的特点在于将识别迁移到了普适物体，而且应用于多分类（姐妹数据集Cifar-100达到100类，ILSV...

2019-08-14 17:28:43 655

Python深度学习（Deep Learning With Python中文版）

Spark大数据分析核心概念技术及实践OCR 中文

hadoop权威指南第二版中文

空空如也