自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孟知之的搬砖填坑历险记

数据实践者与NLP爱好者

  • 博客(82)
  • 收藏
  • 关注

原创 【计算引擎】spark笔记-GraphX图计算

文章目录1. Spark GraphX2.Spark GraphX的抽象3.Spark GraphX图的构建4. Spark GraphX图的计算模式4.1 Spark GraphX 图的转换操作4.2 转换操作4.2 结构操作4.3 关联操作4.4 聚合操作5.GraphX实例1. Spark GraphXSpark GraphX是Spark的一个模块,主要用于进行以图为核心的计算还有分布...

2020-03-17 14:25:27 1430

原创 【计算引擎】spark笔记-实时计算

Spark StreamingSPark Streaming是Spark中一个组件,基于Spark Core进行构建,用于对流式进行处理,类似于Storm。Spark Streaming能够和Spark Core、Spark SQL来进行混合编程。Spark Streaming我们主要关注:Spark Streaming 能接受什么数据? kafka、flume、HDFS、Twitte...

2020-03-15 17:21:11 760

原创 【计算引擎】spark笔记-UDF&&UDAF

应用UDF函数通过spark.udf.register(name,func)来注册一个UDF函数,name是UDF调用时的标识符,fun是一个函数,用于处理字段。需要将一个DF或者DS注册为一个临时表。通过spark.sql去运行一个SQL语句,在SQL语句中可以通过 name(列名) 方式来应用UDF函数。UDAF 用户自定义聚合函数弱类型用户自定义聚合函数新建一个Cla...

2020-03-14 23:46:23 274

原创 【计算引擎】spark笔记-spark sql

SPARK SQL是Spark套件中的一个模块,他将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。Spark SQL的特点:和Spark Core的无缝集成,我可以在写整个RDD应用的时候,配置Spark SQL来实现我的逻辑。统一的数据访问方式,Spark SQL提供标准化的SQL查询。Hive的继承,S...

2020-03-12 23:24:55 227

原创 【计算引擎】spark笔记-submit提交&调试程序

Spark 提交应用程序1、 进入到spark安装目录的bin,调用Spark-submit脚本 2、 在脚本后面传入参数 1、--class你的应用的主类 2、--master 你的应用运行的模式,Local、Local[N]、Spark://hostname:port 、Mesos、Yarn-client、Yarn-cluster 3、[可选] 你可以指定...

2020-03-12 18:20:43 421

原创 【自然语言处理】预训练模型BERT的发展现状

目前,从bert的应用来看,已经在对话系统、机器阅读理解、搜索、文本分类等几乎大多数 NLP 应用领域快速应用,并在部分应用领域取得了突破性的效果提升。1. BERTBERT基于一种相对较新的神经网络结构——Transformers,使用一种叫做“Self-attention”的机制来捕捉单词之间的关系。Transformers中没有卷积(如CNNs)或递归操作(如RNNs)(“Attenti...

2020-03-11 22:59:11 1368

原创 【数据中台】数据集市和数据仓库之间有什么关系

文章目录1.数据仓库与数据集市的区别1.1 数据仓库1.2 数据集市1.3 主要区别2.如何建立数据集市1.数据仓库与数据集市的区别1.1 数据仓库数据仓库是一个面向主题的、集成的、相对稳定的 、反映历史变化的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据...

2020-03-09 00:01:05 2566

原创 【数据中台】什么是数据中台

1.什么是数据中台数据中台是一个体系,一个数据服务工程,数据服务工厂利用数据作为原材料来生产新的数据产品,最终在数据服务商店中销售这些数据产品。总的来说,数据中台就是一个data API工厂,加速从数据到价值的过程,使业务和数据形成闭环,形成生态。2.解决问题:应用开发和数据开发不协同效率问题为什么应用开发一个报表需要几十天的时间为什么不能实时获得用户推荐清单协作问题...

2020-03-08 13:03:53 1357

原创 【自然语言处理】分词工具与问答系统

写完之后,重新看一下哪一部分比较慢,然后试图去优化。一个好的习惯是每写一部分就思考这部分代码的时间复杂度和空间复杂度,AI工程是的日常习惯!Part 1: 搭建一个分词工具Part 1.1 基于枚举方法来搭建中文分词工具此项目需要的数据:综合类中文词库.xlsx: 包含了中文词,当做词典来用以变量的方式提供了部分unigram概率 word_prob举个例子: 给定词典=[我们 ...

2020-03-06 09:29:59 1656 2

原创 【机器学习】监督学习常见算法优缺点

文章目录1. SVM1.1 优点1.2 缺点1.3 适用场景2. 朴素贝叶斯2.1 优点2.2 缺点2.3 适用场景3. 树模型1. SVM1.1 优点SVM在解决小样本,非线性以及高维特征中表现出许多特有的优势。SVM基于有限的样本信息在模型的复杂度和模型准确性之间寻求最佳折中,以获得最好的预测效果。1.2 缺点在数据量大的情况下运算复杂度高,不适合处理过大的数据。模型稳定性...

2020-03-03 23:00:53 3197

原创 【机器学习】正态分布在机器学习的重要性

文章目录1. 概率分布是什么2. 正态分布意味着什么2.1 中心极限定理2.2 重要性3. 正态分布的变量有哪些4.python来检验数据的分布5.特别注意1. 概率分布是什么我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。...

2020-03-03 10:37:54 2349

原创 【数据中台】数据仓库设计规范

为了解决数据仓库建设过程中出现的各种痛点,我们从模型与规范两个方面进行建设,并提出设计统一归口。1.模型规范化模型分层、数据流向,从而降低研发成本,增强指标复用性,并提高业务的支撑能力。1.1.模型分层为了保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长,我们将分层进行统一定义为四层:ODS(OperationalDataStore):定义为存储层,仅...

2020-02-29 11:37:49 4176 1

原创 【通用编程】python-对self的一点领悟

self是什么,一般都说指对象本身,这样说了没了用,说了后还是很难懂,因为这样说了后,仍然完全搞不清楚,什么时候变量前需要加self,什么时候不需要加self。造成很多人,已经怕了self,不停地测试,加self减self来测试代码,或者干脆不知道要不要self,所有变量前面一律加self,这样就能瞎猫碰死老鼠了,但不弄清楚,长期这样做法有点悲剧。所以不需要这么去想self代表对象本身,换个思维...

2020-02-29 00:48:47 220

原创 【通用编程】python参数前面加星号的作用

1、函数声明的参数列表中加单星号,即f(*x)则表示x为元组,所有对x的操作都应将x视为元组类型进行。所有传入f(*x)的变量都将作为元组x的元素之一。2、双星号同上,区别是x视为字典。3、在变量前加单星号表示将元组(列表、集合)拆分为单个元素。4、双星号同上,区别是目标为字典,字典前加单星号的话可以得到“键”。...

2020-02-29 00:45:16 1702

原创 【数据中台】大数据常用hadoop组件

文章目录1.Hadoop1.1 定义1.2 特点优点1.3Hadoop优化1.3.1Mapreduce跑的慢的原因1.3.2优化方法2.HDFS2.1 HDFS设计目标2.2 HDFS的重要特性2.3 优缺点2.4 小文件解决方法3.HBase3.1特点3.2架构4.Zookeeper4.1 工作机制4.2特点4.2 选举机制4.3监听器原理4.4部署方式有哪几种?集群中的角色有哪些?集群最少需要...

2020-02-27 00:33:49 2555

原创 【数据分析】数据探索-EDA

文章目录EDA-探索性数据分析探索性分析流程数据可视化1.单变量分析2.直方图3.箱线图4.正态性检验5.两个属性的分析6.报表7.相关代码7.1.查看数据的类型统计7.2.统计数据每列为空的数据个数的统计7.3.相关性7.3.1获取相关系数矩阵7.3.2获取指定列的相关系数矩阵7.3.3相关性可视化EDA-探索性数据分析EDA的定义:对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先...

2020-02-22 12:37:35 757

原创 【自然语言处理】实际工程中运用深度学习挖掘文本的思考

1.优点可以使用非监督数据训练字词向量,提高泛化能力端到端,提供新思路一些模型结构能够克服传统模型的缺点2.缺点小数据量情况下难以保证效果调参工作量有时不亚于特征工程客户部署硬件环境限制3.思考在业务场景下,尽量收集并理解数据,分析问题本质,选择合适模型初始阶段可以使用传统机器学习模型(CRF)快速尝试,再引入深度学习技术疑难问题使用端到端的方式也许会有惊喜关注最...

2020-02-21 20:02:31 393

原创 【机器学习】建模流程及思路

1. 业务沟通与业务确认(1)哪些数据(2)想做什么事情(3)之前是怎么做的(4)之前有什么不满意的地方(5)能不能用机器学习方法来做(6)如何转换机器学习问题以及优先级(*)(7)训练出来的模型怎么用(8)期望达到什么样的效果(确定业务目标)2. 业务问题转换机器学习问题(1)是否可以用机器学习方法来做(2)如何设计开发节奏(3)最终产品的检...

2020-02-21 01:17:47 1072

原创 【机器学习】特征工程一些小trick

文章目录特征工程1.特征无量纲化1.1归一化 (Normalization)1.2标准化(Standardization)1.3正则化2.生成交叉项3.对数的数据变换4.处理缺失值4.1计算缺失值个数4.2删除有缺失值的数据4.3填充缺失值5.通过正则提取字符串里的指定内容6.字典批量修改变量值7.独热编码7.1数值型类别变量7.2字符串型类别变量8.分桶9.处理数据倾斜9.1观察数据集中数据是否...

2020-02-17 23:13:36 1189

原创 【机器学习】特征工程-方法总概

特征工程的方法总概

2020-02-15 14:36:52 109

原创 【机器学习】TensorFlow模型保存与恢复

文章目录1 Tensorflow模型是什么?1.1 Meta graph1.2 Checkpoint file2 保存一个Tensorflow模型3 导入模型3.1 加载网络4 如何恢复任何一个预训练好的模型1 Tensorflow模型是什么?Tensorflow模型主要包含网络的设计或者图(graph),和我们已经训练好的网络参数的值。因此Tensorflow模型有两个主要的文件:1.1 ...

2020-02-12 22:48:24 431

原创 【通用编程】哈希表、搜索树、堆

1.哈希表1.1定义O(1)的时间复杂度python中的字典dict就是哈希表。1.2涉及几个字典的函数用法enumerate(list)#生成一个有序列,且可迭代的字典zip()nums = Listdict1 = {}# 将列表转换成字典,并计数for v in nums: dict1[v] = dict1.get(v, 0) + 1#tems把字典变为可以遍历的...

2020-02-08 22:43:32 239

原创 【机器学习】TensorFlow共享GPU资源

一般在TF serving 在推理测进行控制,可以限制模型大小,可以限制请求数量,同时可以控制排队数量,也可以限制整个的访问数量 。下面是没有对GPU进行限制的,程序会将GPU占满。$ nohub tensorflow_model_server \ --rest_api_port=8501 \ --model_name=mobilenet \ --model_base_path="...

2020-02-08 22:38:56 2164

原创 【机器学习】Tensorflow下如何提升CPU性能

使用英特尔MKl优化,原理分为三种:1.算子层面上可以做融合2.在数据流图上面可以做优化整合3.在推理侧的时候,可以把Batch Nomalization(过减小内部协变量偏移来加速深度神经网络训练)给进行一个算子折叠。...

2020-02-07 22:23:29 641

原创 【自然语言处理】情绪识别

情绪识别,其实就是多分类。 构造特征工程。混淆矩阵来分析分类错误数据。

2020-02-07 22:19:53 1217

原创 【自然语言处理】拼写纠错

利用编辑距离生成给定输入的候选集合# 词典库vocab = set([line.rstrip() for line in open('vocab.txt')])# 需要生成所有候选集合def generate_candidates(word): """ word: 给定的输入(错误的输入) 返回所有(valid)候选集合 """ # 生成编辑距离...

2020-02-07 22:19:00 521 2

原创 MAMBA NEVER OUT

今天本来打算复习一下特征工程的技巧,可是早上看了电视里Staples Center悼念科比活动,心中的情绪久久不能平静,仿佛回到高中上课时,头顶那呼呼的电风扇,将脑中的思绪敲得粉碎,唯有放学打一场畅快淋漓的篮球,才能缓解。可气的事,年少时的伙伴早已不在身边,更可气的是,老家城市的疫情愈发是严重了,出门放风都成了奢望,哪来的篮球打。于是在网上找出10年湖人总决赛的第7场比赛回放,再从屋里翻出那个有...

2020-02-01 23:57:30 2153

原创 【通用编程】sql优化

SQL编写技巧1.合理使用索引索引少了查询慢;索引多了占用空间大,执行增删改语句的时候需要动态维护索引,影响性能。选择率高(重复值少)且被where频繁引用需要建立B树索引;一般JOIN字段都提前加上索引复杂文档类型查询采用全文索引效率更好,索引的建立要在查询和DML性能之间取得平衡复合索引创建时要注意基于非前导列查询的情况2.使用UNION ALL替代UNIONUNION ...

2020-02-01 00:12:26 181

原创 【通用编程】回溯问题

回溯算法问题都是一个套路解决一个回溯问题,实际上就是一个决策树的遍历过程。result = []def backtrack(路径, 选择列表): if 满足结束条件: result.add(路径) return for 选择 in 选择列表: 做选择 backtrack(路径, 选择列表) ...

2020-02-01 00:09:06 243

原创 【运维部署】500 Internal Server Error

昨天安装prophet,被win的环境依赖问题折磨一天,最终新建一个新虚拟环境解决问题,今天就打算试一下prophet,可刚打开jupyter notebook就报错“500:Internal Sever Error”,搞的一脸懵逼。错误原因在网上找了相关资料,自己猜想应该是主环境中的jupyter_contrib_nbextension此扩展包与新虚拟环境产生环境冲突。解决方法在新环境中...

2020-01-19 00:05:06 728

原创 【机器学习】fbprophet-时间序列预测模型

文章目录1.prophet简介2.安装fbprophet3.prophet的参数设置3.1增长函数的设置3.2变点的设置3.3周期性的设置3.4节假日的设置4.画图1.prophet简介prophet是facebook开源的一是序列预测模型,算法本身可以处理掉异常值和部分缺失值的情况,并可以通过广义的相性模型,分成周期项,趋势项,剩余项和节假日效应四项。模型的输入数据有固定的格式,df[‘d...

2020-01-17 14:25:21 3597 1

原创 【通用编程】动态规划学习笔记(一)

动态规划学习摘要动态规划遵循一套固定的流程:递归的暴力解法 -> 带备忘录的递归解法 -> 非递归的动态规划解法,这个过程是层层递进的解决问题的过程,你如果没有前面的铺垫,直接看最终的非递归动态规划解法,当然会觉得牛逼而不可及了。要点:动态规划问题的第一个性质:重叠子问题我们可以造一个「备忘录」,每次算出某个子问题的答案后别急着返回,先记到「备忘录」里再返回;每次遇到一个子问...

2020-01-15 10:53:53 170

原创 【数据中台】sqoop使用模板

前段时间,有一个临时数据分析需求,需要将数据从oracle导到大数据平台,自己请拿到了同事给的模板,利用sqoop将数据导入hive。同时也在网上学习了一下增量导入,并记录下来。sqoop非增量导数据模板!/bin/bash JDBC=oracle:thin:@192.168.XXX.XXX/orcl USERNAME=admin 模板sqoop job -delete torde...

2020-01-13 11:10:17 260

原创 【机器学习】预测送达时间的模型工程化思路

文章目录笔记业务流程迭代中的模型改进1.损失函数的选择2.业务规则融入模型3.缺失值处理长尾问题优化工程开发实践1.训练实践部分整体训练流程数据并行训练方式TF模型集成预处理2.TF模型线上预测笔记今天在美团技术博客上学习了一下送达时间的预测模型工程化,记录一下。ETA(Estimated Time of Arrival,“预计送达时间”),即用户下单后,配送人员在多长时间内将外卖送达到用户...

2020-01-06 23:03:56 1377 1

原创 【存储引擎】搜索引擎选择:Elasticsearch与Solr

文章目录搜索引擎选择:Elasticsearch与Solr搜索引擎选型调研文档ES***Elasticsearch的优缺点***优点:缺点:Solr***Solr的优缺点***优点缺点Elasticsearch与Solr的比较搜索引擎选择:Elasticsearch与Solr搜索引擎选型调研文档ESElasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处...

2019-12-18 22:34:31 585

原创 【计算引擎】大数据处理的一些方法及代码

文章目录spark1 累加历史1.1 spark sql 使用窗口函数累加历史数据1.2 使用Column提供的over 函数,传入窗口操作1.3 累加一段时间范围内2 统计全部2.1 spark sql 使用rollup添加all统计2.2 spark sql 使用rollup添加all统计3 行转列 ->pivot4 空值处理4.1 对指定的列空值填充4.2 删除某列的非空且非NaN的低...

2019-12-17 23:27:44 1160

原创 【通用编程】在linux环境的python定时任务

1.首先配置linux环境,将anaconda设置为默认环境设置。第一种方法:通过 vi 修改 ~/.bash_profile或者~/.bash_profile将export PATH="~/anaconda/bin:$PATH"改为export PATH="~/anaconda/envs/python3/bin:$PATH"第二种方法:编辑环境变量:vi /etc/profile...

2019-05-28 20:58:55 1978

原创 【通用编程】python的logging全局日志配置

自己参考网上代码写了一个logging模块,滚动删除,只保存最近7天的日志,按级别存入不同文件,只需import后,ta_log.XXXX(‘XXXX’)即可。1.添加配置文件logger_config.ini。首先把该文件放置在/{$项目名}/resource/路径下。其中配置文件里有:(1)TimedRotatingFileHandler用来配置log的滚动删除,arg里的“midnig...

2019-05-15 19:02:37 12029 2

原创 【运维部署】python3 在linux环境下 数据导入oracle失败 报错UnicodeEncodeError

报错: UnicodeEncodeError:‘ascii’ codec can’t encode character ‘\u5e74’ in position 4: ordinal not in range(128)在windows运行的时候,没有问题。但就是在linux跑的时候,就出现报错,在网上也搜了不少的资料,,基本都是python2的,主要问题是linux的默认编码问题。于是乎:...

2019-05-09 15:17:02 286

原创 【自然语言处理】文本分类-数据倾斜处理方案

1.训练集重新采样分布1.1 欠采样欠采样是通过减少丰富类的大小来平衡数据集,当数据量足够时就该使用此方法。通过保存所有稀有类样本,并在丰富类别中随机选择与稀有类别样本相等数量的样本,可以检索平衡的新数据集以进一步建模。1.2 过采样当数据量不足时就应该使用过采样,它尝试通过增加稀有样本的数量来平衡数据集,而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法(SMOT...

2019-04-01 19:38:55 773

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除