- 博客(202)
- 资源 (16)
- 问答 (4)
- 收藏
- 关注
转载 python 本地代理服务器
一个简单的HTTP代理 参数说明: -h, --host 指定代理主机地址,默认获取本机地址,代表本机任意ipv4地址 -p, --port 指定代理主机端口,默认随机生成一个运行代码主机的闲置端口 -l, --listen 指定监听客户端数量,默认10 -b, --bufsize 指定数据传输缓冲区大小,值为整型,单位kb,默认8 -d, --delay 指定数据转发延迟,值为浮点型,单位ms,默认1 简单使用
2024-01-16 16:43:03 244
原创 TypeError: cannot pickle ‘module‘ object
TypeError: cannot pickle 'module' object
2023-03-08 16:08:13 5082 1
原创 ModuleNotFoundError: No module named ‘setuptools.command.build‘
ModuleNotFoundError: No module named 'setuptools.command.build'
2022-11-22 14:46:18 2802 1
原创 PySpark error: AttributeError: ‘NoneType‘ object has no attribute ‘_jvm‘
出现这种问题,一般是由调用udf的过程报错,报错的几个原因如下:(1)引用pyspark.sql.functions的方法覆盖python本身的方法;(2)没有处理None值
2021-11-29 14:22:22 1182
原创 paddlenlp使用预训练模型实现快递单信息抽取中CrossEntropyLoss()指定weight报错
paddlenlp使用预训练模型实现快递单信息抽取中CrossEntropyLoss()指定weight报错
2021-08-17 19:44:38 446
原创 python3 request返回结果出现乱码
nlpc_res = requests.post(url, json.dumps(params))nlpc_res.encoding='utf-8' # 加上zhe yi j
2021-06-18 14:24:23 729
原创 dlopen:cannot load any more object with static TLS:
这是一个低版本glibc (< 2.23)的已知bug,通过dlopen加载一个动态链接库(DSO),并依次将其依赖的DSO也加载进来的时候。具体产生条件是:glibc < 2.23 已经加载了超过14个含TLS的DSO 当前加载的DSO使用了static TLS注意条件2,3。如果能够在加载14个含TLS的DSO前,提前加载含有static TLS的DSO,即可绕过这个问题。具体做法:找到报错模块(比如paddle)如果可以单独import成功的话,调整import包的顺序...
2021-06-06 12:27:26 2127
原创 java.io.IOException: No space left on device
java.io.IOException: No space left on device原因是 /root/tmp 空间不够了,可以制定自己的tmp目录, 在conf/spark-default.conf 里加上 “spark.local.dir /home/XXX/你自己的目录” 即可。
2021-03-22 21:01:09 8356
原创 Python-pandas:每组均值填充缺失值
使用transform:>>> df name value0 A 11 A NaN2 B NaN3 B 24 B 35 B 16 C 37 C NaN8 C 3>>> df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean()))
2021-03-16 15:09:55 5794 3
原创 pyspark udf传入固定参数
1. udf 定义def udf_test(column1, column2): if column1 == column2: return column1 else: return column2apply_test = udf(udf_test, StringType())df = df.withColumn('new_column', apply_test('column1', 'column2'))2. 带固定变量的udf定义.
2021-03-08 18:56:19 804
原创 Linux查看物理CPU个数、核数、逻辑CPU个数
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores"| uniq# 查看逻辑CPU的个数cat /proc/cpuinfo| grep "proce...
2021-02-22 19:26:11 312 1
原创 pandas apply 并行处理的几种方法
1.pandarallel2.joblib (Parallel, delayed 两个函数)https://blog.csdn.net/Jerr__y/article/details/71425298?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&dist_request_id=4ddf3b64-071d-4fd7-a503-9272a88468...
2021-02-22 19:23:57 14764 4
原创 XGBoost学习资料
1. 原论文2. PPT3. 学习视频XGBoost Part 1 (of 4): Regression:https://www.youtube.com/watch?v=OtD8wVaFm6EXGBoost Part 2 (of 4): Classification:https://www.youtube.com/watch?v=8b1JEDvenQUXGBoost Part 3 (of 4): Mathematical Details:https://www.youtube..
2021-01-24 20:13:35 176
原创 python matplotlib绘制动态图
1. 效果2. 代码import matplotlib.animation as aniimport matplotlib.pyplot as pltimport numpy as npimport pandas as pddef load_data(): """ 获取数据 """ url = "./time_series_covid19_deaths_global.csv" df_all = pd.read_csv(url, delim.
2021-01-22 13:55:32 1194 2
原创 dlopen: cannot load any more object with static TLS
交换import顺序解决 解决方法:降级sklearn版本 降级为scikit-learn 0.20.3会使问题消失。
2020-12-17 18:57:35 1914 3
原创 python 操作cassandra
1. 安装python使用cassandra_driver库操作cassandra:b.1、下载https://pypi.org/project/cassandra-driver/#files: cassandra-driver-3.16.0.tar.gz,解压后安装:python setup.py install备注:3.16版本的cassandra要求Cython的版本大于0.20,小于0.29b.2、安装cassandra-driver过程中提示缺少Cython,官网下载:htt...
2020-11-25 18:07:51 1406
原创 利用spark迁移cassandra集群数据
目前工作中遇到需求,需要将一个cassandra集群的数据迁移到另一个cassandra集群。从网上查询发现有两个解决方案,如下1. 读写的时候切换CassandraConnectorimport com.datastax.spark.connector._import com.datastax.spark.connector.cql._import com.datastax.spark.connector.rdd.CassandraTableScanRDDimport org.apa
2020-11-17 16:14:33 466
原创 spark another attempt succeeded
执行spark任务发现 提示信息“another attempt succeeded”,这是由于设置了spark.speculation为true,该参数的含义如下:参考:If a task appears to be taking an unusually long time to complete, Spark may launch extra duplicate copies of that task in case they can complete sooner. This is r.
2020-11-16 14:45:27 2070
原创 vim常用命令
1. 移动光标的方法 操作 功能 [Ctrl] + [f] 屏幕『向下』移动一页,相当于 [Page Down]按键 [Ctrl] + [b] 屏幕『向上』移动一页,相当于 [Page Up] 按键 0 或功能键[Home] 移动到这一行的最前面字符处 $ 或功能键[End] 移动到这一行的最后面字符处
2020-10-30 15:09:59 112
原创 geoip2解析IP的地理位置和城市
python 代码# coding=utf-8import geoip2.databasereader = geoip2.database.Reader('./GeoLite2-City.mmdb')# Open a filefo = open("ip.txt", "r")Lines = fo.readlines()fw = open("ipoutput.txt","w+")count = 0# Strips the newline characterfor line in Li
2020-10-23 10:38:05 2803
原创 python高效读写文件
1. 读文件with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line)2. 保存文件对于频繁写入文件的模块,可以采用以下方式:先将数据暂存到一个result数组中,等数组满了再一次性写入文件。output_file = "./result.txt"result = []def save(line,.
2020-09-23 14:31:35 1700
原创 PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS
1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],
2020-08-26 11:16:52 5502
原创 TextCnn 模型固化后预测时报 The operation, ‘drop_prob‘, does not exist in the graph.“
对于这一问题,由于模型设计中采用tf.layers.dropou函数,而该函数在预测时不起作用,因此固化模型时无需传drop_prob这一参数,因此如果想获取,就会报这个错。
2020-08-06 15:47:00 783
json转excel的demo示例
2023-08-08
geoip2.database包 GeoLite2-City.mmdb
2020-10-23
bilstm_crf_code.tar.gz
2020-07-24
采用fasttext对文本公告进行分类
2020-07-08
数据分析之统计分析操作.xlsx
2020-06-12
additionalCode.tar.gz
2019-11-12
xgboost源代码
2017-05-08
births_transformed.csv.gz
2004-04-03
将dataframe中的两列数据转换成字典dic,结果竟然成这样?
2019-09-10
asp.net写得网页第一次打开为何会跳动一下
2015-11-24
Asp.net中GridView中button的用法
2015-10-15
用命令行调用编译程序前必须要调用call prefix\vcvars32.bat吗?
2015-07-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人