之前的博客已经写了python爬取豆瓣读书top250的相关信息,接下来继续看如何清洗数据。
如果有没看懂的或是不了解上一部分说的是什么内容的,请看https://blog.csdn.net/qq_45804925/article/details/112848887
现在开始具体内容的复习:
1. 豆瓣读书top250信息预处理
#数据清洗
import pandas as pd
import re
import time
# 先读取数据文件
data = pd.read_csv('E:/Class/商业智能实训/我~编写代码/DoubanMovies/book.csv')
result = pd.DataFrame(data)
a = result.dropna(axis=0, how='any')
pd.set_option('display.max_rows', None) #输出全部行,不省略
b = u'数据'
number = 1
b1 = '1981-8'
li1 = a['出版社']
for i in range(0, len(li1)):
try:
if b1 in li1[i]:
# print(number,li1[i])
number += 1
a = a.drop(i, axis=0)
except:
pass
b2 = '中国基督'
a['出版时间'] = a['出版时间'].str[0: 5]
li2 = a['出版时间']
for i in range(0, len(li2)):
try:
if b2 in li2[i]:
# print(number,li2[i])
number += 1
a = a.drop(i, axis=0)
except:
pass
b3 = 'CNY'
li3 = a['价格']
for i in range(0, len(li3)):
try