自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ai_1046067944的专栏

Data Mining Learner

  • 博客(50)
  • 资源 (8)
  • 论坛 (1)

原创 BERT轻量化探索—模型裁剪(BERT Pruning)—层数裁剪

继BERT维度剪枝之后,尝试了BERT层数暴力裁剪,直接剪掉若干层。试验结果: 结论:训练提升40%左右、效果下降1.2%,推断速度提升50%。代码参考 : 最简单的模型轻量化方法:20行代码为BERT剪枝 https://cloud.tencent.com/developer/article/1542897, 但是进行了一些调整。1)首先,将谷歌pretr...

2019-12-19 10:55:44 1185 1

原创 BERT轻量化探索—模型剪枝(BERT Pruning)—Rasa维度剪枝

由于BERT参数众多,模型庞大,训练与推理速度较慢,在一些实时性要求较高应用场景无法满足需求,最近开始探索BERT轻量化部署BERT轻量化的方式:低精度量化。在模型训练和推理中使用低精度(FP16甚至INT8、二值网络)表示取代原有精度(FP32)表示。模型裁剪和剪枝。减少模型层数和参数规模。 模型蒸馏。通过知识蒸馏方法[22]基于原始BERT模型蒸馏出符合上线要求的小模型...

2019-12-19 10:14:04 861 2

原创 问答QA(二)基于BERT的知识库问答实战

GitHub:https://github.com/jkszw2014/bert-kbqa-NLPCC2017一、问题描述本篇知识问答实战来源NLPCC2017的Task5:Open Domain Question Answering;其包含 14,609 个问答对的训练集和包含 9870 个问答对的测试集。并提供一个知识库,包含 6,502,738 个实体、 587,875 个属性以及...

2019-03-09 00:12:35 14075 38

原创 Python连接Kafka问题汇总

1、NoBrokersAvailable: NoBrokersAvailable-Kafka Error解决方法:连接时指定版本producer = KafkaProducer(bootstrap_servers=['localhost:9092'],api_version=(0,1,0))参考链接:https://stackoverflow.com/questions/35689...

2019-12-26 15:24:26 774

原创 hive任务RMContainerAllocator: REDUCE capability required is more than the supported max container

hive任务执行时:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskHadoop job information for Stage-1: number of mappers: 1; number of reducers: 12019-12-17 09:49:08...

2019-12-17 16:52:04 271

转载 在使用pandas 0.23.4对日期进行分组排序时报错

date_df["rank_num"] = date_df.groupby("issuer_id").report_date.agg("rank", **{"ascending": 1, "method": "min"}) File "D:\python_virtualenv\es_env\lib\site-packages\pandas\core\groupby\groupby.py",...

2019-11-06 20:29:51 154

原创 Python3读取Hbase包hbase-thrift异常处理

python连接hbase需要用到hbase-thirft类库,但是hbase-thirft只在python2下能正常使用,如果在python3下,会报错,主要有一下几个错误 : except IOError, io: invalid syntax ModuleNotFoundError: No module named 'ttypes' NameError:name ...

2019-09-30 17:50:20 317 5

原创 pandas read_csv 错误: Buffer overflow caught - possible malformed input file.

一、错误现象 File "/root/anaconda2/lib/python2.7/site-packages/pandas/io/parsers.py", line 1213, in read data = self._reader.read(nrows) File "pandas/parser.pyx", line 766, in pandas.parser.TextRe...

2019-04-23 13:58:11 609 1

原创 python3导入模块的方法PYTHONPAT

1、相同项目中导入模块绝对路径导入load_news.pyfrom log.global_config import *或from ..global_config import *项目结构获取相对和路径名称../ 表示当前文件所在的目录的上一级目录 ./ 表示当前文件所在的目录(可以省略) / 表示当前站点的根目录(域名映射的硬盘目录) im...

2019-03-08 22:10:43 119

原创 python查看已安装模块使用汇总

命令行pydoc查看>>> test:~/home$ pydoc modules #查看所有模块Please wait a moment while I gather a list of all available modules...ANSI aptsources htmlentitydefs ...

2019-03-01 19:08:10 2219

原创 python时间函数

1、获取当前时间>>> import datetime>>> datetime.datetime.now()datetime.datetime(2019, 2, 21, 16, 49, 9, 983020)>>>输出结果从总到右分别为Year、Month、Day、Hour、Minute、Second,最后一个MicroSecond...

2019-02-21 17:00:13 244

原创 SecureCRT使用BackSpace与python shell 方向键乱码

1. 解决backspace和delete的乱码: 在securecrt的 工具栏–>options–>session–>terminal–>emulation–>mapped keys 页面,勾选“other mappings”的两个选项,如下图: 2、python shell 方向键乱码[root@bigdata003 ~]# pythonPyth...

2019-02-20 19:55:16 213

原创 Linux常用命令

1、查看机器ip内网ipinet addr:10.95.114.92[work@cp01-becqa-billing-4.epc.baidu.com: ~]$ ifconfigeth0 Link encap:Ethernet HWaddr FA:16:3E:E4:23:68 inet addr:10.95.114.92 Bcast:10.95.11...

2019-02-20 19:50:11 119

原创 Linux进程监控

1、ps命令使用ps -auxUSER  进程的用户; PID 进程的ID; %CPU 进程占用的CPU百分比; %MEM   占用内存的百分比; VSZ   该进程使用的虚拟内存量(KB); RSS   该进程占用的固定内存量(KB); TTY   该进程在哪个终端上运行(登陆者的终端位置),若与终端无关,则显示(?)。...

2019-02-19 16:48:26 786

转载 【转】【Tensorflow】tf.app.run()与命令行参数解析

转载于 http://blog.csdn.net/TwT520Ly https://blog.csdn.net/TwT520Ly/article/details/79759448、tf.app.run()首先给出一段常见的代码:if __name__ == '__main__': tf.app.run()找到Tensorflow中关于上述函数run()的源码:def...

2019-02-01 10:56:16 249

原创 实体识别(一)几种NER深度学习模型效果对比IDCNN+BERT+BiLISTM+CRF

纯实现上对比几种NER深度学习模型效果(有不严谨的地方:数据集、模型规模等),代码来源于Github上大神的贡献。实现上有三种模型对比 模型 IDCNN+CRF BiLSTM+CRF(1) BiLSTM+CRF(2) BERT+BiLSTM+CRF 参考文献 文献[3] 文献[3] 文献[4] 文献[2] 数据集 100w字符...

2019-01-31 16:34:52 8396 20

原创 问答QA(一)综述

声明:本文是综合网上问答系统介绍,做的总结,如有侵权,请联系处理,谢谢。一、问答系统架构   1.1、问题分析模块       负责对用户的提问进行处理;生成查询关键词(提问关键词,扩展关键词,...);确定提问答案类型(PER, LOC, ORG, TIM, NUM, ...)以及提问的句法、命名实体、语义表示等等。1.2、问题回答模块       依据不同的数据类型,进...

2019-01-25 12:20:08 1707

原创 知识图谱(四):Neo4j查询语法

一、基础语法1、节点基础操作节点创建    Cypher命令: 节点模式的构成:(Variable:Lable1:Lable2{Key1:Value1,Key2,Value2}),实际上,每个节点都有一个整数ID,在创建新的节点时,Neo4j自动为节点设置ID值,在整个数据库中,节点的ID值是递增的和唯一的。下面的Cypher查询创建一个节点,标签是Industry,具有两个属性...

2019-01-23 09:49:34 4344 1

原创 知识图谱(三):Neo4j数据导入与多库切换

一、Neo4j数据导入1、import导入csvimport语法neo4j-admin import [--mode=csv] [--database=<name>] [--additional-config=<config-file-path>] [--re...

2019-01-14 20:08:31 3224

原创 Pandas中DataFrame关联操作(concat、append、merge、join)

结论:concat与append是属于拼接操作 concat简略形式,只能在axis=0上进行合并 merge与join属于关联操作,类似于sql中的join操作 merge可以实现列与索引上关联操作,join只能索引上关联操作 关联操作基本上用merge就可以了一、Concat操作函数:pd.concat(objs, axis=0, join='outer', join_...

2019-01-14 20:05:42 6295

原创 Pandas分组与排序

一、pandas分组1、分组运算过程:split->apply->combine 拆分:进行分组的根据 应用:每个分组运行的计算规则 合并:把每个分组的计算结果合并起来 2、分组函数DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_ke...

2019-01-11 15:21:17 3318 1

原创 flume实践(二):TAILDIR多文件采集到对应HDFS文件

需求: 不同服务产生不同的日志文件,例如: server/test_a_20181217.log  server/test_b_20181217.log;日志是不断写入的 flume采集日志到对应HDFS文件夹里,即 : server/test_a_20181217.log ——>  /user/hive/logs/ymd=20181217/testa/xxxx.txt serv...

2018-12-17 23:27:55 671

原创 flume实践(一):配置+单文件追加采集

一、flume采集到HDFS1、flume安装准备   jdk1.8安装: https://www.cnblogs.com/zeze/p/5902124.html   java -version   2、flume安装    下载 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8....

2018-12-17 22:34:42 379

原创 Spark On Yarn任务超时监控-Shell

最近在用spark跑任务,发现有些任务实际已经执行完成,但是就是占用资源,结束不了,用shell写了个yarn上application耗时监控脚本,超时自动杀掉。#!/bin/bash#current_time=`date +'%Y-%m-%d %H:%M:%S'`current_time_temp=`date +'%s%N'`current_time=$[$current_ti...

2018-11-21 13:34:19 1361

原创 Tensorflow学习笔记(一)--变量作用域与模型加载

1、变量作用域机制主要由两个函数实现:tf.get_variable(<name>, <shape>, <initializer>)tf.variable_scope(<scope_name>)2、常用的initializer有tf.constant_initializer(value) # 初始化一个常量值,tf.random_...

2018-10-08 15:36:26 225

原创 Impala(四):Python3.6连接Impala的No module named _ssl

1、问题描述: Python3.6连接Impala的No module named _sslPython2是没有这个问题的>>> from impala.dbapi import connectTraceback (most recent call last):File "<stdin>", line 1, in <module>File ...

2018-09-30 10:59:11 3352 3

原创 关键词(一)jieba词性标注与分词结果不一致

1、 先描述下现象>>> aa='北京时间月日晚刘强东的刑辩律师在接受澎湃新闻记者电话采访时表示刘强东涉嫌强奸一案中的指控与证据是有出入的一旦调查结束证据将会披露给公众证明他是无罪的'=======过滤词性,能识别“刘强东”>>> ' '.join([k for k,w in analyse.extract_tags(aa,topK=2000,...

2018-09-27 09:18:01 1663

转载 产品经理需要了解的算法——热度算法和个性化推荐

本文系转载,如有不妥之处,欢迎随时留言沟通交流,谢谢~https://36kr.com/p/5084292.html1. 算法的发展阶段个性化推荐不是产品首次发布时就能带的,无论是基于用户行为的个性化,还是基于内容相似度的个性化,都建立在大量的用户数和内容的基础上。产品发布之初,一般两边的数据都有残缺,因此个性化推荐也无法开展。所以在产品发展的初期,推荐内容一般采用更加聚合的“热度...

2018-09-19 17:07:07 206

原创 Impala(三): Python Impala Encountered: STRING LITERAL

记录一个坑,python连Impala,插入数据到Kudu,会有特殊字符问题,冒号,涉及到时间格式与ip地址等场景>>> >>>from impala.dbapi import connect>>> >>>host='xx.xx.xx.xx'>>> >>&

2018-09-13 19:53:12 923

转载 【转】推荐系统算法总结(三)——FM与DNN DeepFM

来源:https://blog.csdn.net/qq_23269761/article/details/81366939,如有不妥,请随时联系沟通,谢谢~0.疯狂安利一个博客FM的前世今生: https://tracholar.github.io/machine-learning/2017/03/10/factorization-machine.html#%E7%BB%BC%E8%BF%...

2018-08-30 15:04:09 1547

转载 【转】推荐系统算法总结(二)——协同过滤(CF) MF FM FFM

来源:未知,如有不妥,请随时联系沟通,谢谢~1.协同过滤(CF)【基于内存的协同过滤】优点:简单,可解释 缺点:在稀疏情况下无法工作 所以对于使用userCF的系统,需要解决用户冷启动问题 和如何让一个新物品被第一个用户发现 对于只用itemCF的系统,需要解决物品冷启动问题如何更新推荐系统呢,答案就是离线更新用户相似度矩阵和物品相似度矩阵【不断删除离开的用户/物品,加入新来的用...

2018-08-30 14:57:28 1384

转载 【转】概念主题模型简记

来源:https://blog.csdn.net/lu597203933/article/details/45933761概念主题模型(PTM, probabilitytopical model)在自然语言处理(NLP,natural language processing)中有着重要的应用。主要包括以下几个模型:LSA(latentsemantic analysis)、 PLSA(proba...

2018-08-24 16:28:18 237

转载 【转】Spark MLlib协同过滤之交替最小二乘法ALS原理与实践

来源: https://blog.csdn.net/L_15156024189/article/details/81712519请先阅读leboop发布的博文《Apache Mahout之协同过滤原理与实践 》。        基于用户和物品的协同过滤推荐都是建立在一个用户-物品评分矩阵(user-item-score)展开的,其本质是利用现有数据填充矩阵的缺失项(missing entr...

2018-08-24 16:07:21 290

转载 【转】推荐系统算法总结(一)

来源:https://blog.csdn.net/eouaq448466/article/details/54772890推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述    推荐算法是...

2018-08-24 15:56:52 2594

原创 Pandas的DataFrame教程——指定位置增加删除一行一列

1、删除一行、一列>>> df A B C D0 1 3 3 41 5 6 7 82 1 1 1 13 2 3 2 3#删除A列,不改变原来的data数据,返回删除后的新表data_2。axis为1表示删除列,0表示删除行。inplace为True表示直接对原表修改。>>> data_2 = df...

2018-08-03 11:10:02 58269 10

原创 Pandas的DataFrame教程

1、DF创建>>> import pandas as pd>>> val = [[1,3,3,4],[5,6,7,8],[1,1,1,1],[2,3,2,3]]>>> cols = ['A','B','C','D']>>> indx= ['i1','i2','i3','i4']>>> d

2018-08-02 14:58:06 442

原创 Impala(二)Impala负载均衡

如有不妥之处,欢迎随时留言沟通交流,谢谢~Impala分为是三个组件,statestored/catalogd和impalad,其中statestored和catalogd是单点的,没有高可用的需求,因为这两个实例是无状态的,本身不存储任何数据,例如catalogd的数据存储在第三方数据库(例如mysql中),statestore的数据全都存储在内存中,可以通过简单的主备的方式来实现高可用,本...

2018-07-25 20:22:00 409

原创 Impala(一):Impala+Kudu+HDFS教程

本文部分引用其它博客,部分原创,如有不妥之处,欢迎随时留言沟通交流,谢谢~1、Impala语法增删改查2、Impala常用函数2.1 、字符串函数参考链接: https://blog.csdn.net/qq_24699959/article/details/798636642.2 、 数值函数参考链接: https://blog.csdn.net/qq_24699959...

2018-07-25 15:46:40 4111

原创 Pyspark-RDD不能嵌套

df = sqlContext.createDataFrame( [(0,1, "a", 23.0), (1,3, "C", -23.0), (2,3, "A", -21.0), (3,2, "B", -19.0) ], ('sec_code','dt','minute') )df.show()a = [(1,rdd)]rdd = sc.parallelize(a)Tracebac...

2018-07-23 16:54:20 933

转载 SPARK-Submit调参(转)

文章出处:https://blog.csdn.net/chenjieit619/article/details/53421080如有不妥之处,欢迎随时留言沟通交流,谢谢~在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡...

2018-07-23 16:17:55 2247

C#电子购物商城系统

数据库课程设计做的项目———— 电子购物商城系统 含有数据库 欢迎共享

2011-06-06

人事/工资/考勤管理系统

使用C#数据课程设计--人事/工资/考勤管理系统,包含有数据库文件,以及实验报告!

2011-03-27

小型宿舍管理系统课程设计

数据库课程设计之小型宿舍管理系统,含有数据库文件,欢迎大家共享!

2011-03-11

小型模拟合同信息管理系统

数据库课程设计之合同管理系统,里面包含数据库文件,很好使用,欢迎共享。

2011-01-12

小型图书馆信息管理系统

本学期的数据库课程设计内容,其中包好数据库文件,和源程序,图书馆系统。

2011-01-07

小型宾馆信息管理系统

独立编写的数据库课程设计——宾馆管理信息系统,欢迎参观。

2011-01-07

albert_classify.zip

提供bert分类模型,使用pytorch开发,已经训练好,可以下载下来直接使用,不需要重新训练,如有问题,请提示,谢谢

2020-07-16

hbase_py3.zip

无奈没有积分,逐个问题修复,免费给大家,喜欢的点个赞,python3读取Hbase通过Thrift操作时用到hbase-thrift包,但是运行时报错IOError,ttypes,xrange,iteritems等错误。

2019-09-30

C++调试时出现 unhandled exception Access Violation

发表于 2012-10-12 最后回复 2012-10-12

空空如也
提示
确定要删除当前文章?
取消 删除