sklearn线性回归学习中遇到的问题及解决方法

最新推荐文章于 2024-08-13 01:54:14 发布

徐不依

最新推荐文章于 2024-08-13 01:54:14 发布

阅读量4.5k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/shulixu/article/details/50897293

版权

在机器学习的毕业设计中，使用sklearn进行线性回归遇到了挑战。复杂的数据格式和处理需求导致了效果不佳。首先，针对csv数据的分隔问题，进行了特殊的处理。其次，为解决形状不匹配问题，对数据进行了转置。此外，对于日期数据，将其转化为float类型以适应模型训练。

摘要由CSDN通过智能技术生成

最近因为做毕业设计开始学习机器学习，这一周主要是对数据进行操作做出可视化的图来分析，另外就是学习论文中提到的一些机器学习算法。

现在仅仅是利用sklearn库中的现有方法实现训练和测试，但是由于手中现有的数据比较复杂，并不适合用线性回归的方法去拟合，所以效果并不理想。

1.首先是原始数据格式的问题：

我拿到的数据是csv格式的，用reader读进来以后是用‘\t’对每个字符分隔，每行都是list。但是这样就不能用list[1][1]这种方法对单独某条记录中的一个字段进行处理，所以就进行如下的步骤：

reader=csv.reader(file(csvfile,'rb'))
tmp=[]    
for line in reader:
    str="".join(line).split('\t')
    tmp.append(str)

这样就变成每行的字段之间用‘,’进行分隔，可以单独提取某个字段了。但是提取的表示如下：

for i in tmp:
        if i[0].find(day)<>-1:
            numberoflines+=1

相当于把一行看成一个字符串数组。

2.一个去除重复的小技巧：

label0=list(s

关注

专栏目录