工具
cccccccoding
这个作者很懒,什么都没留下…
展开
-
爬虫代理IP池
1. 代码目标因为需要进行一个大规模的爬取,具体是爬取全国地级以上城市的实时天气,历史某天到某天的天气,未来30天的天气,为了防止IP被封,需要使用代理IP进行爬取,而找了半天也没有找到好用的可以获取代理IP的库,所以就自己写了一个。流程大概是从免费代理IP 网站爬取IP,加入到IP池,并维护这个IP 池,在使用别的爬虫时,导入这个库,就可以使用代理IP爬取,适用于大规模爬虫。2. 选取一个免...原创 2019-01-31 17:36:48 · 1716 阅读 · 0 评论 -
pyecharts
pyechartspyecharts是什么?pyecharts可以用来画什么?pyecharts怎么用?pyecharts实例Bar(柱状图/条形图)堆叠图:3D柱状图:Pie(饼图)Line(折线图)pyecharts是什么?pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒,py...原创 2019-01-22 21:45:40 · 1556 阅读 · 0 评论 -
pandas入门-dataFrame
pandas入门-dataFrame简介安装导入读取csv文件创建、复制与新增列取某列中某元素所在的行所组成的表统计某列中个元素及数量通过index重排数据表将NaN值转化为0,方便之后使用pyecharts简介Pandas是一款开放源码的BSD许可的Python库,为Python编程语言提供了高性能,易于使用的数据结构和数据分析工具。Pandas用于广泛的领域,包括金融,经济,统计,分析等学...原创 2019-01-22 23:43:38 · 211 阅读 · 0 评论 -
pandas使用dropna处理缺失值无效
pandas使用dropna处理缺失值无效因项目需要,在使用pandas进行csv缺失值处理。发现df_high = df_high.dropna()没用,缺失值依然在最后发现是缺失的地方是空字符串使用replace替换,然后再dropna就行可Df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)D...原创 2019-05-13 11:39:13 · 5437 阅读 · 4 评论 -
pandas append 错误:ValueError: If using all scalar values, you must pass an index
在使用pandas DataFrame处理数据时出现的错误:ValueError: If using all scalar values, you must pass an index错误:pd_crew_product_count.append(pd.DataFrame({'crew_opt':'%s'%pd_crew,'varity_opt':'%s'%pro,'weight':weigh...原创 2019-06-20 09:45:50 · 998 阅读 · 0 评论 -
org.apache.spark.SparkException: Items in a transaction must be unique but got WrappedArray()
在使用pyspark进行频繁项集求解遇到先看报错:再看代码:from pyspark.ml.fpm import FPGrowthfp = FPGrowth(minSupport=0.005, minConfidence=0.5,itemsCol="items")fpm = fp.fit(freqDf)fpm.freqItemsets.show(5)报错原因:Array中不能出现...原创 2019-07-15 14:01:39 · 708 阅读 · 0 评论 -
cx_Oracle.DatabaseError: DPI-1043
向Oracle写数据时出现cx_Oracle.DatabaseError: DPI-1043:invalid number这个问题居然百度不到,是出现得很少吗在做项目中需要向Oracle写入这样一个数据,400w条但是在写入时出现1043错误,检查过所有列和类型和数据库中的表类型是对应的。找了半天在 stack overflow 一个外国老大哥出现了同样的问题,他的原因是数据中有NaN...原创 2019-08-01 16:24:19 · 4837 阅读 · 0 评论