Python机器学习实践指南读书笔记(第四章)

这篇博客介绍了如何使用Python的pandas库处理和分析IPO数据,进行数据清洗,转换数据类型,并通过逻辑回归模型预测IPO市场的表现。作者展示了如何绘制月度IPO首日平均和中位数收益率的柱状图,并探讨了逻辑回归在二元分类中的应用。尽管遇到数据获取的限制,但博主仍强调了学习过程中的问题解决和代码调试的重要性。
摘要由CSDN通过智能技术生成
  • 第3章 构建应用程序,发现低价的机票
  • 第3章国外的购票网站进不去,后续也没去操作了,就先跳过。

第 4 章 使用逻辑回归预测 IPO 市场

IPO 市场。
公开募股是一家私人公司成为上市公司的过程。公开发行为公司募集资金,并让 公众通过购买其股票,获得投资该公司的机会。

pandas

请访问 https://www.iposcoop.com/scoop-track-record-from-2000-to-present /并单击页面底部的按钮,下载一个电子表格。我们将其加载到 pandas。
可视化。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from patsy import dmatrix 
from sklearn.ensemble import RandomForestClassifier 
from sklearn import linear_model 
#%matplotlib inline 
ipos = pd.read_excel("C:\\Users\\think\\Desktop\\其他\\SCOOP.xlsx",encoding='latin-1') 

print(ipos)
#清理工作
ipos = ipos.applymap(lambda x: x if not '$' in str(x) else x.replace('$',''))
ipos = ipos.applymap(lambda x: x if not '%' in str(x) else x.replace('%',''))
print(ipos)
ipos.info()#查看列的数据类型
ipos.replace('N/C',0, inplace=True)
ipos.replace('NC',0, inplace=True) 
ipos['Trade Date'] = pd.to_datetime(ipos['Trade Date'])
print(ipos['Trade Date'].dt.year)
ipos['Offer Price'] = ipos['Offer Price'].astype('float') 
ipos['Opening Price'] = ipos['Opening Price'].astype('float') 
ipos['1st Day Close'] = ipos['1st Day Close'].astype('float') 
ipos['1st Day% Px Chng'] = ipos['1st Day% Px Chng'].astype('float') 
ipos['$ Change Close'] = ipos['$ Change Close'].astype('float') 
ipos['$ Change Opening'] = ipos['$ Change Opening'].astype('float')
#ipos['Star Ratings'].fillna(0)
ipos['Star Ratings'] = ipos['Star Ratings'].astype('int')
ipos.groupby(ipos['Trade Date'].dt.month)['1st Day% Px Chng'].mean().plot(kind='bar', figsize=(15,10), color='k', title='1st Day Mean IPO Percentage Change')
ipos.groupby(ipos['Trade Date'].dt.month)['1st Day% Px Chng'].median().plot(kind='bar', figsize=(15,10), color='k', title='1st Day Median IPO Percentage Change')
plt.show()
ipos[ipos['Trade Date']=='11/120']
ipos.loc[1660, 'Trade Date'] = '2012-11-20' 

print(ipos.info())

在这里插入图片描述
•数据清洗和特征工程。
•使用逻辑回归的二元分类。
•模型评估。
•特征的重要性。
特征工程也做不了了,拉不了想要的数据,下面就是限制了。
在这里插入图片描述

二元分类

为了预测二进制的结果(即 1 或 0,是或
否),我们将从称为逻辑回归(logistic regression)
的模型开始。逻辑回归使用了逻辑函数。这是很
理想的选择,因为逻辑回归有几个数学属性,
由于逻辑函数的形式,它特别适合于提供概
率的估计,以及依据这些估计的二进制响应。任何大于 0.5 的被分类为 1,而任何低于 0.5
的被分类为 0。这些 1 和 0 可以对应任何我们想要分类的事物。

数据一没有就很难跟着书进行下去。而且数据随着时间,数据会被更新,python操作也随着版本代码有细微差别,写写代码报错好像变的平常,根据报错改改再运行也是有进步的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值