- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 cx_Oracle.DatabaseError: DPI-1043
向Oracle写数据时出现cx_Oracle.DatabaseError: DPI-1043:invalid number 这个问题居然百度不到,是出现得很少吗 在做项目中需要向Oracle写入这样一个数据,400w条 但是在写入时出现1043错误,检查过所有列和类型和数据库中的表类型是对应的。找了半天在 stack overflow 一个外国老大哥出现了同样的问题,他的原因是 数据中有NaN ...
2019-08-01 16:24:19
4992
原创 org.apache.spark.SparkException: Items in a transaction must be unique but got WrappedArray()
在使用pyspark进行频繁项集求解遇到 先看报错: 再看代码: from pyspark.ml.fpm import FPGrowth fp = FPGrowth(minSupport=0.005, minConfidence=0.5,itemsCol="items") fpm = fp.fit(freqDf) fpm.freqItemsets.show(5) 报错原因:Array中不能出现...
2019-07-15 14:01:39
743
原创 pandas append 错误:ValueError: If using all scalar values, you must pass an index
在使用pandas DataFrame处理数据时出现的错误:ValueError: If using all scalar values, you must pass an index 错误: pd_crew_product_count.append(pd.DataFrame({'crew_opt':'%s'%pd_crew,'varity_opt':'%s'%pro,'weight':weigh...
2019-06-20 09:45:50
1042
原创 pandas使用dropna处理缺失值无效
pandas使用dropna处理缺失值无效 因项目需要,在使用pandas进行csv缺失值处理。发现 df_high = df_high.dropna() 没用,缺失值依然在 最后发现是缺失的地方是空字符串 使用replace替换,然后再dropna就行可 Df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True) D...
2019-05-13 11:39:13
5581
4
原创 爬虫代理IP池
1. 代码目标 因为需要进行一个大规模的爬取,具体是爬取全国地级以上城市的实时天气,历史某天到某天的天气,未来30天的天气,为了防止IP被封,需要使用代理IP进行爬取,而找了半天也没有找到好用的可以获取代理IP的库,所以就自己写了一个。流程大概是从免费代理IP 网站爬取IP,加入到IP池,并维护这个IP 池,在使用别的爬虫时,导入这个库,就可以使用代理IP爬取,适用于大规模爬虫。 2. 选取一个免...
2019-01-31 17:36:48
1769
原创 pandas入门-dataFrame
pandas入门-dataFrame简介安装导入读取csv文件创建、复制与新增列取某列中某元素所在的行所组成的表统计某列中个元素及数量通过index重排数据表将NaN值转化为0,方便之后使用pyecharts 简介 Pandas是一款开放源码的BSD许可的Python库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具。Pandas用于广泛的领域,包括金融,经济,统计,分析等学...
2019-01-22 23:43:38
237
原创 pyecharts
pyechartspyecharts是什么?pyecharts可以用来画什么?pyecharts怎么用?pyecharts实例Bar(柱状图/条形图)堆叠图:3D柱状图:Pie(饼图)Line(折线图) pyecharts是什么? pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,py...
2019-01-22 21:45:40
1615
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人