读取文件aa.txt并赋值lines(sc类似于一个对象,我们通过这个对象来访问spark)
lines = sc.textFile("aa.txt")
获取文件的行数
lines.count()
获取文件第一行
lines.first()
筛选出文件中包含某个关键词的一行
searchline = lines.filter(lambda line: ("searchterms") in line)
searchline.first()
把RDD持久化到内存
`
searchline.persist