Villanelle7mm-CSDN博客

原创 dataframe代码存储

自己记录

2022-10-25 10:56:40 333

转载 R语言dnorm，pnorm，qnorm，rnorm区别

dnorm(x, mean = 0, sd = 1, log = FALSE) 的返回值是正态分布概率密度函数值，比如dnorm（z）则表示：标准正态分布密度函数f（x）在x=z处的函数值。pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) 返回值是正态分布的分布函数值，比如pnorm（z）等价于P[X ≤ z]qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) 的

2021-02-07 05:39:05 1024

转载 format用法

.format 用法https://www.runoob.com/python/att-string-format.htmlhttps://www.cnblogs.com/penphy/p/10028546.html两篇文章解决

2021-01-06 16:29:51 208

原创 python输出多为位小数numpy

np.set_printoptions(precision=15)参考链接https://blog.csdn.net/xjp_xujiping/article/details/103368739

2020-11-16 16:47:42 947

原创归一化和标准化python实现

归一化(0-1)之间from sklearn.preprocessing import Normalizer#归一化，返回值为归一化后的数据a=Normalizer().fit_transform(a)a_1=pd.DataFrame(a)标准化from sklearn.preprocessing import StandardScalera=StandardScaler().fit_transform(a)a_1=pd.DataFrame(a)...

2020-11-02 16:09:45 163

原创使用python转换文件编码为UTF-8

sourceFileName='E:/客户分层-会员-素缕-付款时间---2020-09-15.csv'#改之前targetFileName='E:/hhhhh.csv'#改之后import codecsBLOCKSIZE = 1048576 # or some other, desired size in byteswith codecs.open(sourceFileName, "r", "GB18030") as sourceFile: with codecs.open(targetF

2020-09-18 15:15:28 1275

原创 Tableau数字显示—自定义格式万

0"."0,“万”

2020-08-27 09:53:23 4127 2

原创 HD-微信指数爬虫

1、抓包工具fiddler下载配置这里给个链接，讲的很详细查看大佬文章2、把抓到的包的数据复制到记事本3、解析数据import pandas as pdimport timeimport datetimedata={"data":{"group_list":[{"gid":"7081064148676864217","group_wxindex":[{"query":"布鲁克","wxindex_str":"34572,34358,32584,29586,30910,31186,34

2020-08-05 17:53:34 1606

原创 python把字符串按照逗号分割为list

本身是一个长字符串字符串执行后成为listb[3]['group_wxindex'][0]['wxindex_str'].split(',')

2020-08-05 17:19:05 8631

原创 fbprophet的时间序列预测

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom fbprophet import Prophetfrom fbprophet.diagnostics import cross_validationfrom fbprophet.diagnostics import performance_metricsfrom fbprophet.plot import plot_cross_validation_m

2020-07-29 14:29:47 599

原创 Python删除dataframe的指定行

删除‘货号’栏是‘-’的行full=full[~(full['货号'].isin(['-']))]‘货号’栏有：‘DM0029.’,‘DM0040.’…的成为一个新表，其他的成为一个新表new=fina[(fina['货号'].isin(['DM0029.','DM0040.','DM0031.','DM0034.','DM0032.','DM0030.','DM0033.','DM0036.','DM0037.']))]old=fina[~(fina['货号'].isin(['DM0029.',

2020-07-24 10:25:05 2120

原创 python批量导入文件夹的所有Excel

import pandas as pdfrom pathlib import Pathimport globimport osimport numpy as npimport recsv_files = []for csv_path in glob.glob('E:/生意7月/*.xls'): print(csv_path) customer_df = pd.read_excel(csv_path, encodin

2020-07-24 09:56:50 1193

原创简单的随机森林预测（Python）

import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifierimport matplotlib.pyplot as plttrain=pd.read_excel('E:/project_6.18/train.xlsx')train_f=pd.read_excel('E:/project_6.18/train_nan.xlsx')test=pd.read_excel('E:/pro

2020-07-23 15:49:56 2787

原创查DataFrame的某行是否在另一个DataFrame中

df1={'A':['a','b','c'], 'B':['x','y','z']}df1=pd.DataFrame(df1)df1df2={'Col1':['j','a','k','b'], 'Col2':['m','x','n','y']}df2=pd.DataFrame(df2)df2df = df1.merge(df2, how='left', indicator=True, left_on=['A','B'], right_on=['Col1','Col2'])

2020-07-21 14:53:12 4224 1

原创 python自动生成一年的时间（精确到秒）

import timeimport randomimport pandas as pdbegin_date = (2019, 9, 1, 0, 0, 0, 0, 0, 0) #設置開始日期時間元組（2019-09-01 00：00：00）end_date = (2020, 8, 31, 23, 59, 59, 0, 0, 0) #設置結束日期時間元組（2020-08-31 23：59：59）start = time.mktime(begin_date) #生成開始時間end = time.m

2020-07-19 11:20:37 1457

原创 HD-微博指数

import requestsimport reimport csvimport ftplibimport osimport sysimport datetimeimport timeimport pandas as pdfrom bs4 import BeautifulSoupimport numpy as npimport iofrom datetime import datetime# 登录后才能访问的网页url = 'https://data.weibo.com/i

2020-07-14 14:15:48 254

原创 python中dataframe学习笔记

1、生成随机数（并且休眠）import randomimport time a = random.randint(30, 45) time.sleep(a)2、链接异常的处理大于timeout的事件后，即为链接异常或者本身的网页异常出来异常执行except中的代码，没有的话就不执行了 resp=None try: resp = requests.post(url, data,

2020-07-14 14:12:58 239

原创失败的模拟登录

失败的模拟登录import requestsimport reimport csvimport ftplibimport osimport sysimport datetimefrom selenium import webdriverimport timefrom selenium.webdriver.chrome.options import Optionsimport pandas as pdfrom bs4 import BeautifulSoupimport numpy

2020-06-11 11:16:05 362

原创 pandas 复习

pandas 复习1、读入exceldata=pd.read_excel('D://躺椅垫跟踪//20200601//begin.xlsx',sheet_name=0,header=0,encoding='utf-8')2、提取部分列到新的dataframeproduct_1 = product[['产品SKU','产品名称','最近单价','销售状态','产品等级','产品销售负责人']]3、merge函数连接data=pd.merge(left=data,right = product_

2020-06-05 18:07:22 269

原创 python正则表达式 re.sub进行数据的清洗

python正则表达式 re.sub进行数据的清洗1、替换多余字符 users[i]=users[i].apply(lambda x:re.sub('外勤','',str(x))) users[i] = users[i].apply(lambda x: re.sub('\n', '', str(x))) users[i] = users[i].apply(lambda x: re.sub(' ', '', str(x))) users[i] = users[i].apply

2020-06-04 16:40:38 1487

原创 python DataFrame的index顺序排列

python DataFrame的index顺序排列排序后index的顺序乱了，想把index按照顺序升序排列data.reset_index(drop=True, inplace=True)完整代码1）升序排列2）修改索引3）删除排序后，数据后20%的数据data.sort_values(by="最近三个月（最近5次采购）平均交期",ascending=True,inplace=True)data.reset_index(drop=True, inplace=True)data.dro

2020-06-03 10:10:04 3889

原创 selenium 爬取cookie并且把数据下载到Excel

selenium 爬取cookie并且把数据下载到Excelimport requestsimport reimport csvimport ftplibimport osimport sysimport datetimefrom selenium import webdriverimport timefrom selenium.webdriver.chrome.options import Optionsimport pandas as pdfrom bs4 import Beau

2020-06-01 17:02:01 402

原创 pymssql模块链接sql server并且写入

pymssql模块链接mysql并且写入连接import pymssqlconn = pymssql.connect('218.17.38.10', 'SkyKeyuser', 'S669', 'SkykeyEC')cursor = conn.cursor()sql="select * from JQ"data=pd.read_sql(sql,con=conn)写入for i in range(len(num)): list = [] t=(str(num.iloc

2020-06-01 12:04:27 469