- 博客(27)
- 资源 (6)
- 收藏
- 关注
原创 python 数据科学 - 【分类模型】 ☞ 稳健滴 SVM 支持向量机
from sklearn.datasets import load_irisfrom sklearn.svm import SVCfrom sklearn.linear_model import LogisticRegressioniris = load_iris()X = iris.data[0:100,[2,3]]Y = iris.target[0:100]'''支持向量机
2017-09-25 11:19:48 681
原创 python 数据科学 - 【分类模型】 ☞ 逻辑回归
sklearn.linear_model.LogisticRegression'''逻辑回归是二元分析,其分析结果为一个0-1之间的概率,所以其分界线可以为斜线'''from sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegressionimport numpy as
2017-09-24 22:14:46 530
原创 python 数据科学 - 【分类模型】 ☞ 决策树
graphviz下载地址:Graphviz - Graph Visualization Software链接:http://pan.baidu.com/s/1slwQCwd 密码:dt7r使用方式:决策树思路1. 一维,计算entropy => 特征选择标准2. 添加维度,选择information Gain最大3
2017-09-23 21:13:35 412
原创 python - 批量更改文件名(过滤掉某个字符串)
import ospath = 'F:\\电影\\新建文件夹'drop_str = '【支付宝:xxxxxxxxxxx 打赏一元 有惊喜哟】'items = os.listdir(path)for name in items: new_name = ''.join(name.split(drop_str)) os.rename(name, new_name)items =
2017-09-23 15:50:34 2686
原创 python 数据科学 - 【回归分析】 ☞ 线性回归(2)
回归模型估测:import statsmodels.api as smX2 = sm.add_constant(X)est = sm.OLS(Y, X2)est2 = est.fit()print(est2.summary())predictorcols = ['age', 'area', 'room', 'l_room', 'total_floor', '
2017-09-21 13:45:34 764
原创 python 数据科学 - 【回归分析】 ☞ 线性回归(1)
基本线性回归、多次线性回归、多元线性回归:from sklearn.preprocessing import PolynomialFeaturesfrom sklearn.linear_model import LinearRegression'''高次线性回归'''poly_reg = Poly
2017-09-20 21:17:11 947 1
原创 python - 抓取汇率数据分析美元和欧元对RMB的变化曲线
数据:人民币汇率中间价实例:import requestspayload = { 'projectBean.startDate' : '2017-06-18', 'projectBean.endDate' : '2017-09-18', 'queryYN' : 'true'}response = requests.post('h
2017-09-18 23:08:39 3961 1
原创 python - 使用sql 分析(06 - 15)国内各省GDP
数据国家数据 -> 各省年度数据实例import pandas as pddf = pd.read_csv('Data/Region_Data.csv', encoding='gbk', skiprows=3, skipfooter=2, engine='python')df.head()# df = pd.melt(df, id_var
2017-09-18 18:04:02 1634
原创 python - sql + pandas 与 sqlite 结合
SQLite关联式资料库-SQLiteFirefox的附加组件中搜索安装即可python 自带sqlite3 模块# coding: utf-8# In[2]:import sqlite3 as dbcon = db.connect('test.sqlite')cur = con.cursor()sql = 'SELECT SQLITE_VERSION
2017-09-17 18:55:53 3016
原创 python - 【用户、商品】【购买、浏览】数据处理
import pandas as pdclos = ['Time', 'Action', 'User', 'Product', 'Quantity', 'Price']orders = pd.read_csv('Data/purchase_order.tab', sep='\t',parse_dates={'Dates' : [0]}, names=clos, encoding='utf-8'
2017-09-17 12:51:16 1462
原创 python - pandas 从 yahoo finance 读取 BABA 数据进行 visualization
import pandas_datareader as pdrdf = pdr.DataReader('BABA', data_source='yahoo', start='2014-10-01')df.head()%pylab inline# figsize 长,宽# close 图标# grid 格df['Close'].plot(kind='line
2017-09-17 09:25:43 1846 1
原创 python - pandas 从 yahoo finance 读取 BIDU 数据进行descriptive statistics
# coding: utf-8# In[18]:# pip install pandas_datareaderimport pandas_datareader as pdrdf = pdr.DataReader('BIDU', data_source='yahoo')df.tail()# In[19]:df.columns# In[20]:df['Close'].
2017-09-16 22:49:41 756
原创 python - 采集 新浪新闻-国内-最新消息 转为xlsx
# coding: utf-8# In[63]:import requestsfrom pyquery import PyQuery as pqresponse = requests.get(url='http://news.sina.com.cn/china/')response.encoding = 'utf-8'html = response.textdoc = pq(h
2017-09-16 13:19:45 1052
原创 python - 在 DataFrame 中使用正则表达式
1. 正则表达式文档Python正则表达式指南Python爬虫入门七之正则表达式2. exampledf[['室', '厅', '厨', '卫']] = df['户型'].str.extract('(\d+)室(\d+)厅(\d+)厨(\d+)卫', expand=False)df.head(3)
2017-09-12 18:51:46 20636
原创 python - 数据转换
1. Data Transformation# coding: utf-8# In[21]:import pandas df = pandas.read_excel('Data/house_sample.xlsx')df.head(3)# In[22]:df['总价'] * 10000# In[23]:import numpy as npnp.sqrt
2017-09-12 16:44:31 701
原创 python - 房屋资料处理(detection and imputation)
# coding: utf-8# In[53]:import pandas df = pandas.read_csv('Data/house_data.csv')# In[54]:# 查看前几行数据df.head(3)# In[55]:# 删除unnameddel df['Unnamed: 0']df.head(3)# ## 将第一列作为 index#
2017-09-11 22:49:33 1207
原创 python - 遗失值处理
侦测遗失值# coding: utf-8# ## 检测缺失值# In[2]:import pandas as pdimport numpy as npdf = pd.DataFrame([ ['frank', 'M', np.nan], ['mary' , np.nan, np.nan
2017-09-11 18:25:19 926
原创 python - requests 1 hour 速成
# coding: utf-8# ## get请求# In[4]:import requestsresponse = requests.get('http://news.qq.com/')type(response)# In[5]:response.status_code# In[8]:response.text# In[10]:response.co
2017-09-09 13:17:48 424
原创 python - pandas 1hour 速成
# coding: utf-8# ## numpy# In[169]:a = [1, 2, 3]b = [4, 5, 6]# In[170]:[f*s for f, s in zip(a, b)] # zip 返回tuple 的List# In[171]:import numpy as npna = np.array([ ['name', 'gender
2017-09-07 23:44:02 837
原创 python - selenium 处理 frame
问题:使用selenium 选中input 框失败,已经确保选择器正确,如何解决?解决:关键代码iframe = wait.until( EC.presence_of_element_located( (By.CSS_SELECTOR, '#udbsdk_frm_normal')
2017-09-07 13:26:13 522
原创 python - pyquery 房天下 spider
import requestsfrom pyquery import PyQuery as pqimport reimport pandasimport datetimedef save_as_csv(houses_info_list): houses_df = pandas.DataFrame(houses_info_list) houses_df.to_csv('{
2017-09-06 17:59:35 570
原创 python - pyquery 将腾讯新闻保存为本地xlsx
infolitedemo# coding: utf-8# ## pyquery 抓取腾讯新闻# In[7]:import requestsfrom pyquery import PyQuery as pqhtml = requests.get('http://news.qq.com/').textnews_items = pq(html).fin
2017-09-06 13:26:18 440
原创 python - 计算英文文章中的字词频率
In [40]:speech_text = '''Chief Justice Roberts, President Carter, President Clinton, President Bush, President Obama, fellow Americans and people of the world, thank you.We, the citizens of
2017-09-04 11:19:12 1000
原创 python - python函数的参数传递是传值还是传引用?
可更改(mutable)对象与不可更改(immutable)对象str, tuple, 和number是不可更改的对象,list,dict等则是可以修改的对象。example结论mutable 变量,传址immutable 变量,传值
2017-09-03 12:30:47 626
转载 python - jupyter notebook 配置
安装jupyter 主题# install/upgrade to latest versionpip install --upgrade jupyterthemes配置方法# list available themes# onedork | grade3 | oceans16 | chesterish | monokai | solarizedl | solar
2017-09-03 11:03:08 825
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人