数据主要是csv文件,是股票的涨跌和每日点击量前20条新闻的关系,里面包括了日期,标签(0,1,0代表跌,1代表涨),以及25列新闻标题
关于数据的处理,首先我将25列新闻标题合并为1列,然后根据日期分为训练集和测试集,通过tf-idf进行文本的处理,将数据进行逻辑回归的模型训练,最后进行测试集的预测
csv数据大致如下:
好了,show my code:
from pyspark.sql import SparkSession
from pyspark.ml.feature import HashingTF, IDF, Tokenizer
from pyspark.ml.classification import LogisticRegression
spark = SparkSession \
.builder \
.appNam