python
hadoove
这个作者很懒,什么都没留下…
展开
-
python抓取网页
python取网页非常简单,但是python自带的urllib和urllib2包爬取网页比较慢,但对爬取数据不多的话这个包还是挺好用的,对于爬取数据较多的可以选择一些扩展包。这里就只接单的介绍一下urllib2这个包的使用: import urllib2def fetch(url): http_header={'User_Angent':'CHrome'} http_r...原创 2015-02-05 10:37:27 · 644 阅读 · 0 评论 -
pandas DataFrame行列转置
import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(6).reshape(2,3),index=("AA","BB"),columns=["three","two","one"])print(df) three two oneAA 0 1 2BB 3 4 ...原创 2019-07-06 15:24:32 · 36868 阅读 · 2 评论 -
通过jupyter远程连接CDH(pyspark)
1. 在CDH上安装Anaconda Parcel(离线或者远程安装anaconda parcel)下载Anaconda Parcels,下载符合自己的版本及其sha文件将下载好的文件上传至你的CDH parcels库,一般位置在 /opt/cloudera/parcel-repo进入CDH管理界面,进行相关配置!配置界面刷新之后就能够看到Anaconda已下载成功。然后分发...原创 2018-12-12 15:58:53 · 1675 阅读 · 0 评论 -
Spark Streaming-Kafka实例(Python与Java版本)
本文实现kafka与Spark Streaming之间的通信,其中Kafka端producer实现使用Java,Spark Streaming端Consumer使用Python实现。首先安装kafka与spark streaming环境,kafka测试连通测试参考上文,本文的实验环境都为本地单机版本。Kafkaimport org.apache.kafka.clients.produc...原创 2018-08-17 11:18:42 · 987 阅读 · 0 评论 -
量化交易学习笔记(一) ---- 量化交易基本名词概念
量化交易基本名词概念三大经典指标1.夏普比率(Shape Ratio),也称夏普指数,它指的是投资回报与风险的比例。夏普比率代表投资人每多承担一份风险,就可以拿到几份回报,若为正值,代表基金报酬率高于波动风险;若为负值,代表基金操作风险大于报酬率。比例越高,投资组合越佳。2.詹森指数(Jensen),又称为阿尔法值,是衡量基金超额收益大小的一种指标,这个指标综合考虑了基金收益与风险...原创 2018-06-16 16:43:40 · 5493 阅读 · 0 评论 -
matplotlib库学习(一)
#matplotlib模块学习import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-5,5,50)y1 = 2*x + 1y2 = x**2#画一个直线plt.figure()plt.plot(x,y1)plt.show()#在同一个fig中画两条线plt.figure(num=3,figsize=(8,6原创 2018-01-10 20:25:01 · 425 阅读 · 0 评论 -
Pandas学习(二)
import pandas as pdimport numpy as np#处理丢失数据dates = pd.date_range('20180107',periods=6)df = pd.DataFrame(np.arange(24).reshape((6,4)),index = dates,columns=['A','B','C','D'])df.iloc[0,1] = np.nan原创 2018-01-07 22:40:34 · 497 阅读 · 0 评论 -
pandas学习(三)
pandas模块的使用导入csv文件import pandas as pdfrom pandas import read_csvurl="https://goo.gl/vhm1eU"names = ['preg','plas','skin','test','mass','pedi','age','class']data = read_csv(url,names = name原创 2017-11-08 13:51:43 · 465 阅读 · 0 评论 -
Panads学习(一)
import pandas as pdimport numpy as np#创建序列s = pd.Series([1,2,3,4,5,np.nan,22,33])print s0 1.01 2.02 3.03 4.04 5.05 NaN6 22.07 33.0dtype: float64#创建DataFr原创 2018-01-07 15:46:08 · 688 阅读 · 0 评论 -
numpy使用
import numpy as npA = np.array([1,1,1])B = np.array([2,2,2])#vertical stackC = np.vstack((A,B))print C[[1 1 1] [2 2 2]]#horizontal stackD = np.hstack((A,B))print D[1 1 1 2 2 2]#原创 2018-01-06 13:46:57 · 280 阅读 · 0 评论 -
matplotlib学习(二)
#image图片#image dataa = np.array([0.313660827978, 0.365348418405, 0.423733120134, 0.365348418405, 0.439599930621, 0.525083754405, 0.423733120134, 0.525083754405, 0.65153635原创 2018-01-13 15:23:06 · 399 阅读 · 0 评论 -
Python编程小技巧(一直更新...)
python中的小技巧太多了,如果你会使用一些小技巧,有时候你的代码会非常简练,这边我会一直记录我在学习python过程中的一些小技巧。1.将tuple映射成listimport itertoolsnums = [1,2,3]print list(itertools.permutations(nums))#[(1,2,3),(1,3,2),(2,1,3),(2,3,1),(3,1,2),(3,原创 2017-11-16 20:34:06 · 243 阅读 · 0 评论 -
python中文列表输出
python 2.X版本的中文输出打印原创 2017-04-20 16:40:57 · 3069 阅读 · 0 评论 -
python3 安装pandas ModuleNotFoundError: No module named bz2
解决:ModuleNotFoundError: No module named bz2ModuleNotFoundError: No module named ‘_lzma’1、在操作系统中安装zlib和bz2相关库yum install zlib zlib-develyum -y install bzip2 bzip2-devel ncurses openssl openssl-de...原创 2019-07-26 08:39:17 · 7703 阅读 · 0 评论