自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(202)
  • 资源 (16)
  • 问答 (4)
  • 收藏
  • 关注

原创 python实现Ahocorasick

【代码】python实现Ahocorasick。

2024-05-24 11:36:08 268

原创 NLP经典入门论文

梳理了NLP入门的一些经典论文

2024-05-10 10:51:49 651

原创 智能文档提取

基于AI的智能文档抽取

2024-05-06 18:05:54 381

原创 FastText 微调

安装之前只需要把model.cc文件中以下几行代码注释掉即可实现【冻结词向量】。

2024-03-31 17:04:28 364

原创 FastText 增量训练

FastText 增量训练

2024-03-29 19:00:45 512

原创 RAG排序策略探索——基于GPT2的PPL的方案

RAG排序策略探索——基于GPT2的PPL的方案

2024-01-24 21:57:56 663

原创 采用ERNIE计算 Perplexity (PPL)

采用ERNIE多种方式计算PPL。

2024-01-23 17:38:20 801

转载 python 本地代理服务器

一个简单的HTTP代理 参数说明: -h, --host 指定代理主机地址,默认获取本机地址,代表本机任意ipv4地址 -p, --port 指定代理主机端口,默认随机生成一个运行代码主机的闲置端口 -l, --listen 指定监听客户端数量,默认10 -b, --bufsize 指定数据传输缓冲区大小,值为整型,单位kb,默认8 -d, --delay 指定数据转发延迟,值为浮点型,单位ms,默认1 简单使用

2024-01-16 16:43:03 244

原创 TypeError: cannot pickle ‘module‘ object

TypeError: cannot pickle 'module' object

2023-03-08 16:08:13 5082 1

原创 增量解析日志文件

异步定时加载大规模日志文件,并完成解析。

2023-03-01 17:12:25 241

原创 ModuleNotFoundError: No module named ‘setuptools.command.build‘

ModuleNotFoundError: No module named 'setuptools.command.build'

2022-11-22 14:46:18 2802 1

原创 基于gensim的文档相似度判断

基于gensim的文档相似度判断:包含文本预处理、向量获取、相似度计算等。

2022-11-01 15:17:14 380

原创 mysql 分组查询最新的/最高的一条记录

mysql 分组查询最新的/最高的一条记录

2021-12-21 16:30:53 950

原创 PySpark error: AttributeError: ‘NoneType‘ object has no attribute ‘_jvm‘

出现这种问题,一般是由调用udf的过程报错,报错的几个原因如下:(1)引用pyspark.sql.functions的方法覆盖python本身的方法;(2)没有处理None值

2021-11-29 14:22:22 1182

原创 paddlenlp使用预训练模型实现快递单信息抽取中CrossEntropyLoss()指定weight报错

paddlenlp使用预训练模型实现快递单信息抽取中CrossEntropyLoss()指定weight报错

2021-08-17 19:44:38 446

原创 python3 request返回结果出现乱码

nlpc_res = requests.post(url, json.dumps(params))nlpc_res.encoding='utf-8' # 加上zhe yi j

2021-06-18 14:24:23 729

原创 机器学习自动调参小试

1. 安装环境2. 脚本

2021-06-07 15:01:36 767 1

原创 dlopen:cannot load any more object with static TLS:

这是一个低版本glibc (< 2.23)的已知bug,通过dlopen加载一个动态链接库(DSO),并依次将其依赖的DSO也加载进来的时候。具体产生条件是:glibc < 2.23 已经加载了超过14个含TLS的DSO 当前加载的DSO使用了static TLS注意条件2,3。如果能够在加载14个含TLS的DSO前,提前加载含有static TLS的DSO,即可绕过这个问题。具体做法:找到报错模块(比如paddle)如果可以单独import成功的话,调整import包的顺序...

2021-06-06 12:27:26 2127

原创 pandas 快速读写大csv文件

1. 快速读2.快速写

2021-05-21 11:15:21 806

原创 java.io.IOException: No space left on device

java.io.IOException: No space left on device原因是 /root/tmp 空间不够了,可以制定自己的tmp目录, 在conf/spark-default.conf 里加上 “spark.local.dir /home/XXX/你自己的目录” 即可。

2021-03-22 21:01:09 8356

原创 Python-pandas:每组均值填充缺失值

使用transform:>>> df name value0 A 11 A NaN2 B NaN3 B 24 B 35 B 16 C 37 C NaN8 C 3>>> df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean()))

2021-03-16 15:09:55 5794 3

原创 pyspark udf传入固定参数

1. udf 定义def udf_test(column1, column2): if column1 == column2: return column1 else: return column2apply_test = udf(udf_test, StringType())df = df.withColumn('new_column', apply_test('column1', 'column2'))2. 带固定变量的udf定义.

2021-03-08 18:56:19 804

原创 PySpark dataframe 按照某列排序

df.orderBy('column_name', ascending=False)

2021-02-26 19:28:34 4769

原创 Linux查看物理CPU个数、核数、逻辑CPU个数

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores"| uniq# 查看逻辑CPU的个数cat /proc/cpuinfo| grep "proce...

2021-02-22 19:26:11 312 1

原创 pandas apply 并行处理的几种方法

1.pandarallel2.joblib (Parallel, delayed 两个函数)https://blog.csdn.net/Jerr__y/article/details/71425298?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&dist_request_id=4ddf3b64-071d-4fd7-a503-9272a88468...

2021-02-22 19:23:57 14764 4

原创 深度学习在NLP中的演进

前一段时间看了一篇知乎专栏《PTMs| 2020最新NLP预训练模型综述》,介绍了NLP的一些主流模型。如下图所示:

2021-02-18 17:32:15 209

原创 XGBoost学习资料

1. 原论文2. PPT3. 学习视频XGBoost Part 1 (of 4): Regression:https://www.youtube.com/watch?v=OtD8wVaFm6EXGBoost Part 2 (of 4): Classification:https://www.youtube.com/watch?v=8b1JEDvenQUXGBoost Part 3 (of 4): Mathematical Details:https://www.youtube..

2021-01-24 20:13:35 176

原创 python matplotlib绘制动态图

1. 效果2. 代码import matplotlib.animation as aniimport matplotlib.pyplot as pltimport numpy as npimport pandas as pddef load_data(): """ 获取数据 """ url = "./time_series_covid19_deaths_global.csv" df_all = pd.read_csv(url, delim.

2021-01-22 13:55:32 1194 2

原创 pandas shift方法

1. 接口介绍2. 使用示例3. 小结

2021-01-18 15:23:40 599

原创 dlopen: cannot load any more object with static TLS

交换import顺序解决 解决方法:降级sklearn版本 降级为scikit-learn 0.20.3会使问题消失。

2020-12-17 18:57:35 1914 3

原创 python 操作cassandra

1. 安装python使用cassandra_driver库操作cassandra:b.1、下载https://pypi.org/project/cassandra-driver/#files: cassandra-driver-3.16.0.tar.gz,解压后安装:python setup.py install备注:3.16版本的cassandra要求Cython的版本大于0.20,小于0.29b.2、安装cassandra-driver过程中提示缺少Cython,官网下载:htt...

2020-11-25 18:07:51 1406

原创 利用spark迁移cassandra集群数据

目前工作中遇到需求,需要将一个cassandra集群的数据迁移到另一个cassandra集群。从网上查询发现有两个解决方案,如下1. 读写的时候切换CassandraConnectorimport com.datastax.spark.connector._import com.datastax.spark.connector.cql._import com.datastax.spark.connector.rdd.CassandraTableScanRDDimport org.apa

2020-11-17 16:14:33 466

原创 spark another attempt succeeded

执行spark任务发现 提示信息“another attempt succeeded”,这是由于设置了spark.speculation为true,该参数的含义如下:参考:If a task appears to be taking an unusually long time to complete, Spark may launch extra duplicate copies of that task in case they can complete sooner. This is r.

2020-11-16 14:45:27 2070

原创 vim常用命令

1. 移动光标的方法 操作 功能 [Ctrl] + [f] 屏幕『向下』移动一页,相当于 [Page Down]按键 [Ctrl] + [b] 屏幕『向上』移动一页,相当于 [Page Up] 按键 0 或功能键[Home] 移动到这一行的最前面字符处 $ 或功能键[End] 移动到这一行的最后面字符处

2020-10-30 15:09:59 112

原创 Hadoop安装

http://dblab.xmu.edu.cn/blog/install-hadoop/

2020-10-27 15:46:37 135

原创 geoip2解析IP的地理位置和城市

python 代码# coding=utf-8import geoip2.databasereader = geoip2.database.Reader('./GeoLite2-City.mmdb')# Open a filefo = open("ip.txt", "r")Lines = fo.readlines()fw = open("ipoutput.txt","w+")count = 0# Strips the newline characterfor line in Li

2020-10-23 10:38:05 2803

原创 python高效读写文件

1. 读文件with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line)2. 保存文件对于频繁写入文件的模块,可以采用以下方式:先将数据暂存到一个result数组中,等数组满了再一次性写入文件。output_file = "./result.txt"result = []def save(line,.

2020-09-23 14:31:35 1700

原创 python 常用代码块

本文梳理在学习、工作中经常使用的一些代码。1. 读写文件2. 时间转换

2020-09-23 14:21:29 188

原创 PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS

1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],

2020-08-26 11:16:52 5502

原创 TextCnn 模型固化后预测时报 The operation, ‘drop_prob‘, does not exist in the graph.“

对于这一问题,由于模型设计中采用tf.layers.dropou函数,而该函数在预测时不起作用,因此固化模型时无需传drop_prob这一参数,因此如果想获取,就会报这个错。

2020-08-06 15:47:00 783

fastText增量训练版本代码

本版代码支持fastText进行增量训练,目前仅支持fasttext命令行格式。

2024-03-29

json转excel的demo示例

json转excel的demo示例,支持json多层级拉平变成Excel中的列名。 采用python中的json、pandas实现。 可在此基础上进一步开发。

2023-08-08

NLP各类任务pytorch代码

NLP各类任务pytorch代码

2022-01-18

time_series_covid19_deaths_global.csv

time_series_covid19_deaths_global.csv

2021-01-22

geoip2.database包 GeoLite2-City.mmdb

geoip2 可解析出ip的位置和所在城市等信息,GeoLite2-City.mmdb数据库,仅供学习使用。

2020-10-23

bilstm_crf_code.tar.gz

该代码完整实现了基于bilstm+crf的tensorflow实现,可训练、预测。 ├── Batch.py # 实现batch功能 ├── bilstm_crf.py # 模型定义 ├── data # 数据文件夹 │   ├── Bosondata.pkl # 训练数据的输入(加工后) │   ├── generate_dataset.py # 数据加工脚本,将原数据处理成模型需要的格式 │   └── wordtagsplit.txt # 原数据 ├── train.py # 训练相关的代码 └── utils.py # 功能函数

2020-07-24

采用fasttext对文本公告进行分类

该代码文件包括以下几个部分: (1)nlp_utils.py 数据功能处理函数 (2)fast_text_train.py 训练代码 (3)fast_text_predict.py 利用meta模型预测代码 (4)frozen_graph.py 模型固化及预测代码 (5)saves 训练得到的模型文件 (6)word2id_dict.txt、label2id_dict.txt 训练时得到的字典文件

2020-07-08

数据分析之统计分析操作.xlsx

excel分析方法:描述统计、Z检验、F检验、t检验、方差分析。https://blog.csdn.net/jingyi130705008/article/details/106599260

2020-06-12

数据分析之数据处理操作.xlsx

Excel 数据中的数据分析功能提供了常用的一些数据处理技巧:随机数发生器、抽样、排位与百分比排位、指数平滑、移动平均、直方图。

2020-06-07

additionalCode.tar.gz

博客代码 https://blog.csdn.net/jingyi130705008/article/details/103027824

2019-11-12

MySQL安装文件及安装教程

mysql版本:mysql-5.5.36-win32;有详细的安装说明及卸载说明。

2018-04-07

xgboost源代码

本人通过亲自实践,教大家一步步在win下安装xgboost(http://blog.csdn.net/jingyi130705008/article/details/71435562),这个是之前的xgboost的C++版本,是在python使用xgboost之前必须的包。

2017-05-08

python_dateutil-2.6.0-py2.py3-none-any.whl

dateutil模块

2017-04-23

pandas-0.16.0rc1.win32-py2.7.exe

下载pandas-0.16.0rc1.win32-py2.7.exe,双击运行即可安装

2017-04-23

asp.net考试系统可参考源码含数据库

asp.net考试系统可参考源码含数据库

2015-12-28

C语言实现五子棋

用C写一个简单的五子棋游戏,还有人机对战呢!

2015-06-20

表达式后置代码实现

数据结构关于栈的应用:对于复杂的表达式后置C语言的实现,

2015-06-20

births_transformed.csv.gz

博客https://blog.csdn.net/jingyi130705008/article/details/102941161 所需数据集

2004-04-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除