Python学习
jingyi130705008
你已经很好了,只是你还可以更好。
展开
-
增量解析日志文件
异步定时加载大规模日志文件,并完成解析。原创 2023-03-01 17:12:25 · 184 阅读 · 0 评论 -
python3 request返回结果出现乱码
nlpc_res = requests.post(url, json.dumps(params))nlpc_res.encoding='utf-8' # 加上zhe yi j原创 2021-06-18 14:24:23 · 653 阅读 · 0 评论 -
dlopen:cannot load any more object with static TLS:
这是一个低版本glibc (< 2.23)的已知bug,通过dlopen加载一个动态链接库(DSO),并依次将其依赖的DSO也加载进来的时候。具体产生条件是:glibc < 2.23 已经加载了超过14个含TLS的DSO 当前加载的DSO使用了static TLS注意条件2,3。如果能够在加载14个含TLS的DSO前,提前加载含有static TLS的DSO,即可绕过这个问题。具体做法:找到报错模块(比如paddle)如果可以单独import成功的话,调整import包的顺序...原创 2021-06-06 12:27:26 · 1821 阅读 · 0 评论 -
pandas 快速读写大csv文件
1. 快速读2.快速写原创 2021-05-21 11:15:21 · 754 阅读 · 0 评论 -
pandas apply 并行处理的几种方法
1.pandarallel2.joblib (Parallel, delayed 两个函数)https://blog.csdn.net/Jerr__y/article/details/71425298?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&dist_request_id=4ddf3b64-071d-4fd7-a503-9272a88468...原创 2021-02-22 19:23:57 · 13015 阅读 · 4 评论 -
python matplotlib绘制动态图
1. 效果2. 代码import matplotlib.animation as aniimport matplotlib.pyplot as pltimport numpy as npimport pandas as pddef load_data(): """ 获取数据 """ url = "./time_series_covid19_deaths_global.csv" df_all = pd.read_csv(url, delim.原创 2021-01-22 13:55:32 · 1145 阅读 · 2 评论 -
pandas shift方法
1. 接口介绍2. 使用示例3. 小结原创 2021-01-18 15:23:40 · 560 阅读 · 0 评论 -
dlopen: cannot load any more object with static TLS
交换import顺序解决 解决方法:降级sklearn版本 降级为scikit-learn 0.20.3会使问题消失。原创 2020-12-17 18:57:35 · 1796 阅读 · 3 评论 -
python 操作cassandra
1. 安装python使用cassandra_driver库操作cassandra:b.1、下载https://pypi.org/project/cassandra-driver/#files: cassandra-driver-3.16.0.tar.gz,解压后安装:python setup.py install备注:3.16版本的cassandra要求Cython的版本大于0.20,小于0.29b.2、安装cassandra-driver过程中提示缺少Cython,官网下载:htt...原创 2020-11-25 18:07:51 · 1309 阅读 · 0 评论 -
python高效读写文件
1. 读文件with open("./input.txt") as fp: for line in fp: line = line.strip() if line: print(line)2. 保存文件对于频繁写入文件的模块,可以采用以下方式:先将数据暂存到一个result数组中,等数组满了再一次性写入文件。output_file = "./result.txt"result = []def save(line,.原创 2020-09-23 14:31:35 · 1437 阅读 · 0 评论 -
python 常用代码块
本文梳理在学习、工作中经常使用的一些代码。1. 读写文件2. 时间转换原创 2020-09-23 14:21:29 · 153 阅读 · 0 评论 -
Python之队列queue模块使用 常见问题与用法
https://blog.csdn.net/yangzhenzhen/article/details/53536335转载 2020-07-16 21:46:30 · 329 阅读 · 0 评论 -
python 正则表达式
1. 正则表达式模式模式 描述 ^ 匹配字符串的开头 $ 匹配字符串的末尾。 . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。 [...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k' [^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 ...原创 2020-01-12 12:17:18 · 125 阅读 · 0 评论 -
pyspark 模块化代码
期望实现的功能:建立一个模块,计算出两点间的直线距离(单位为英里),并且将计算结果从英里转换成千米。1. 创建模块文件组织结构如下:setup.py: 打包用户自定义的功能模块from setuptools import setupsetup( name='PySparkUtilities', version='0.1dev', packages=['...原创 2019-11-12 14:30:10 · 578 阅读 · 0 评论 -
PySpark 之 GraphFrames简介
GraphFrames可以快速轻松地分析以图形结构组织的数据,边和顶点由DataFrame表示,允许我们存储每个节点和边的任意数据。简单示例如下:# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionfrom pyspark.sql import types as typfrom p...原创 2019-11-11 19:05:44 · 3752 阅读 · 0 评论 -
pyspark ml 中LDA简单示例
# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionimport pyspark.sql.types as typimport pyspark.ml.feature as ftimport pyspark.ml.clustering as clusfrom pyspark.ml imp...原创 2019-11-07 14:44:11 · 1538 阅读 · 0 评论 -
pyspark ml 中LogisticRegression的使用
前置概念ML包公开了三个主要的抽象类:转换器(transformer)、评估器(estimator)和管道(pipeline)。转换器,通常通过将一个新列附加到DataFrame来转换数据,其常见参数有inputCol(所要转换列的名称,默认为features)和outputCol(转换后新增的新列名称).评估器,可以理解为需要评估的统计模型,常用来做分类、回归、聚类等。管道,用来...原创 2019-11-06 19:13:33 · 2085 阅读 · 0 评论 -
python多进程示例
下面这个示例的功能包含:(1)实现python多进程;(2)进程间共享变量company_queue (通过Manager().Queue()实现)(3)每个进程最后输出一个独立的结果(保存路径通过参数传入);(4)实现json数据整合成一个dataframe并输出到文件(支持csv和excel两种格式);(5)部分函数的具体实现略去。示例代码:#coding=...原创 2019-11-05 20:46:48 · 329 阅读 · 0 评论 -
Python 多进程与多线程
Python 多进程与多线程转载 2019-10-16 10:54:09 · 119 阅读 · 0 评论 -
利用最小二乘法进行参数估计
应用示例from scipy.optimize import leastsq# 公式求解def get_C_formula(X, par): DT = X alpha, beta = par return alpha * DT + beta# 实验数据x, y和拟合函数之间的差,p为拟合需要找到的系数def residuals1(p, y, x): ...原创 2019-05-08 11:14:06 · 14840 阅读 · 0 评论 -
pandas中关于set_index和reset_index的用法
1.set_indexDataFrame可以通过set_index方法,可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新索引,drop为False,inplace为True时,索引将会还原为列 In [307...转载 2017-10-05 20:51:30 · 216047 阅读 · 5 评论 -
读取json文件并传换成dataframe对象
with open('final_result.txt', 'r') as fp: result = pd.DataFrame() content = fp.read() count = 0 for line in content.split('\n'): if len(line) > 0: count = count + 1 print('count:',cou...原创 2019-10-09 12:55:38 · 1090 阅读 · 0 评论 -
pandas 读写excel
直接上示例代码:import pandas as pdexcel_path = 'output_final_good.xlsx'data = pd.read_excel(excel_path)writer = pd.ExcelWriter('output_final_good2.xlsx')data.to_excel(writer,'Sheet1', index=False)...原创 2019-09-11 16:47:30 · 161 阅读 · 0 评论 -
Numpy中数组重塑、合并与拆分
1.数组重塑1.1一维数组转变成二维数组通过reshape( )函数即可实现,假设data是numpy.array类型的一维数组array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),现将其转变为2行5列的二维数组,代码如下:data.reshape((2,5))作为参数的形状的其中一维可以是-1,它表示该维度的大小由数据本身推断而来,因此上面代码等价于:data.reshape原创 2017-09-24 15:45:09 · 24629 阅读 · 1 评论 -
numpy中二维数组按照某列、某行排序
如何根据二维数组中的某一行或者某一列排序?可以利用numpy中的argsort函数进行实现,代码实例如下:data = data[data[:,2].argsort()]由于argsort返回的是行索引的数组那种特定列原创 2017-09-22 20:50:17 · 48840 阅读 · 2 评论 -
python中字符串与datetime的相互转换
python中字符串与datetime的相互转换原创 2017-10-07 15:15:47 · 126082 阅读 · 0 评论 -
Python之format函数
Python之format函数原创 2017-10-27 09:07:39 · 630 阅读 · 0 评论 -
中文分词之jieba简单应用
使用jieba从一些中文文本中提取频率较高的关键词。原创 2017-10-12 20:36:43 · 630 阅读 · 0 评论 -
如何在Java项目中执行python代码
最近在做一个项目,需要在java里调用python代码,网上找了一些资料,想简单总结一下。可是我对java运行机制并不是很了解,所以只能说说怎么做。1. 安装Jython (什么是Jython)下载安装jython_installer-2.5.0.jar, 安装完毕后需要把其中的jython.jar复制到项目中的lib中(引入jar包);原创 2018-01-23 16:41:50 · 5615 阅读 · 0 评论 -
Numpy学习——数组填充np.pad()函数的应用
在卷积神经网络中,为了避免因为卷积运算导致输出图像缩小和图像边缘信息丢失,常常采用图像边缘填充技术,即在图像四周边缘填充0,使得卷积运算后图像大小不会缩小,同时也不会丢失边缘和角落的信息。在Python的numpy库中,常常采用numpy.pad()进行填充操作,具体分析如下:1)语法结构pad(array, pad_width, mode, **kwargs)返回值:数组2)参数解释array—...转载 2018-04-15 18:11:55 · 2159 阅读 · 0 评论 -
python generator
Python中Generators教程转载 2018-05-15 11:46:31 · 592 阅读 · 0 评论 -
python 深入理解 赋值、引用、拷贝、作用域
python 深入理解 赋值、引用、拷贝、作用域转载 2018-05-15 20:33:08 · 254 阅读 · 0 评论 -
python基本类型介绍
之前一直觉得语言这东西,只要懂点语法,会用就行。然而昨天百度的面试,让我对此有了新的认识。可以不用过多关注语言本身,但是基本原理(思想)是一定要懂得,只有这样才能写出高效的代码。于是打算写一篇博客来深入理解下python常见的几种数据类型。python的基本数据类型有Number(数字)、String(字符串)、Tuple(元组)、List(列表)、Dictionary(字典)、Set(集合)...原创 2018-09-19 16:46:34 · 6728 阅读 · 0 评论 -
fancyimpute介绍及使用
1.简介fancyimpute是python的第三方工具包,主要提供了各种矩阵计算、填充算法的实现。 2.安装在anaconda prompt上直接执行pip3 install fancyimpute会报错pip install ecos error “ Microsoft Visual C++ 14.0 is required.”,需要到https://www.lfd.uci.e...原创 2018-09-21 09:07:57 · 16232 阅读 · 2 评论 -
字典dict转pandas dataframe格式
代码如下:import pandas as pddata_dic = {'Science':{'A':2,'B':5},'Art':{'B':6,'C':7},'Fashion':{'D':5, 'C':8}}data_df = pd.DataFrame(data_dic) # 如果需要转置,则改为pd.DataFrame(data_dic).Tdata_df = data_df.f...原创 2019-02-16 21:59:37 · 13188 阅读 · 1 评论 -
dataframe一列拆分成多列
假设某一列数据包含多个信息id attrs A 1,2,5,3 B 3,1,2,5 C 1,2,0,3 D 1,7,5,3 E 2,1,6,8 我们想把他拆分成多列,做法如下:首先进行拆分 data_df = data_df['attrs'].str.split(',', expand=True)然后用pd.concat把多列...原创 2019-02-22 17:48:15 · 35812 阅读 · 4 评论 -
Python读取Json数组
最近爬虫遇到这样的数据形式:[{\"RunEval\":\"w61Zw5vCjsKCMBDDvRbCjA9tw5jDuAPDhCc/YR8nDTHDqMKuPMKswpjDij4Zw79dworDinLCqQJLw4EiJyFDw5rDjsOlw4zCmWnCtWHCvgs3w5tjIMODQ8K8w7zCjGXCuMO/XnzDicOoZ8K1W8OLVcK0w5kyw5dxSUBYLT5A...原创 2019-07-30 16:53:49 · 24261 阅读 · 0 评论 -
python函数的可变参数*args和关键字参数**kw
1. 定义解释在函数定义def func(*args, **kw) 时,参数args前有‘*’符号,表示该参数是可变参数,即参数的数量可以为任意个;参数kw 前有‘**’符号,表示该参数是关键字参数,即参数带有key,且数量可以为任意个;在函数调用 func(*args, **kw) 时,参数args前有‘*’符号,表示会把args展开,把其中的每个...原创 2019-08-05 15:59:04 · 842 阅读 · 0 评论 -
python并发编程之多线程
python并发编程之多线程转载 2019-08-09 16:32:46 · 123 阅读 · 0 评论 -
将dataframe中的两列数据转换成字典dic
df 为dataframe对象,包含'word', 'count'两列数据方法一result_dic = df.groupby('word')['count'].apply(list).to_dict() # 对于同一个key对应多个value,则把同一key的value构成一个listresult_dic = df.groupby('word')['count'].apply(...原创 2019-09-10 11:06:13 · 17487 阅读 · 5 评论