“oppose”:0,
“pro”:false,
“reply”:0,
“score”:5,
“spoiler”:0,
“startTime”:“2018-11-22 23:52:58”,
“supportComment”:true,
“supportLike”:true,
“sureViewed”:1,
“tagList”:{
“fixed”:[
{
“id”:1,
“name”:“好评”
},
{
“id”:4,
“name”:“购票”
}
]
},
“time”:“2018-11-22 23:52”,
“userId”:1871534544,
“userLevel”:2,
“videoDuration”:0,
“vipInfo”:“”,
“vipType”:0
}
]
}
如此多的数据,我们感兴趣的只有以下这几个字段:
nickName
, cityName
, content
, startTime
, score
接下来,进行我们比较重要的数据处理,从拿到的 JSON 数据中解析出需要的字段:
def parseInfo(data):
data = json.loads(html)[‘cmts’]
for item in data:
yield{
‘date’:item[‘startTime’],
‘nickname’:item[‘nickName’],
‘city’:item[‘cityName’],
‘rate’:item[‘score’],
‘conment’:item[‘content’]
}
拿到数据后,我们就可以开始数据分析了。但是为了避免频繁地去猫眼请求数据,需要将数据存储起来,在这里,笔者使用的是 SQLite3,放到数据库中,更加方便后续的处理。存储数据的代码如下:
def saveCommentInfo(moveId, nikename, comment, rate, city, start_time)
conn = sqlite3.connect(‘unknow_name.db’)
conn.text_factory=str
cursor = conn.cursor()
ins=“insert into comments values (?,?,?,?,?,?)”
v = (moveId, nikename, comment, rate, city, start_time)
cursor.execute(ins,v)
cursor.close()
conn.commit()
conn.close()
因为前文我们是使用数据库来进行数据存储的,因此可以直接使用 SQL 来查询自己想要的结果,比如评论前五的城市都有哪些:
SELECT city, count(*) rate_count FROM comments GROUP BY city ORDER BY rate_count DESC LIMIT 5
结果如下:
从上面的数据, 我们可以看出来,来自北京的评论数最多。
不仅如此,还可以使用更多的 SQL 语句来查询想要的结果。比如每个评分的人数、所占的比例等。如笔者有兴趣,可以尝试着去查询一下数据,就是如此地简单。
而为了更好地展示数据,我们使用 Pyecharts 这个库来进行数据可视化展示。
根据从猫眼拿到的数据,按照地理位置,直接使用 Pyecharts 来在中国地图上展示数据:
data = pd.read_csv(f,sep=‘{’,header=None,encoding=‘utf-8’,names=[‘date’,‘nickname’,‘city’,‘rate’,‘comment’])
city = data.groupby([‘city’])
city_com = city[‘rate’].agg([‘mean’,‘count’])
city_com.reset_index(inplace=True)
data_map = [(city_com[‘city’][i],city_com[‘count’][i]) for i in range(0,city_com.shape[0])]
geo = Geo(“GEO 地理位置分析”,title_pos = “center”,width = 1200,height = 800)
while True:
try:
attr,val = geo.cast(data_map)
geo.add(“”,attr,val,visual_range=[0,300],visual_text_color=“#fff”,
symbol_size=10, is_visualmap=True,maptype=‘china’)
except ValueError as e:
e = e.message.split("No coordinate is specified for ")[1]
data_map = filter(lambda item: item[0] != e, data_map)
else :
break
geo.render(‘geo_city_location.html’)
注:使用 Pyecharts 提供的数据地图中,有一些猫眼数据中的城市找不到对应的从标,所以在代码中,GEO
添加出错的城市,我们将其直接删除,过滤掉了不少的数据。
使用 Python,就是如此简单地生成了如下地图:
从可视化数据中可以看出,既看电影又评论的人群主要分布在中国东部,又以北京、上海、成都、深圳最多。虽然能从图上看出来很多数据,但还是不够直观,如果想看到每个省/市的分布情况,我们还需要进一步处理数据。
而在从猫眼中拿到的数据中,城市包含数据中具备县城的数据,所以需要将拿到的数据做一次转换,将所有的县城转换到对应省市里去,然后再将同一个省市的评论数量相加,得到最后的结果。
data = pd.read_csv(f,sep=‘{’,header=None,encoding=‘utf-8’,names=[‘date’,‘nickname’,‘city’,‘rate’,‘comment’])
city = data.groupby([‘city’])
city_com = city[‘rate’].agg([‘mean’,‘count’])
city_com.reset_index(inplace=True)
fo = open(“citys.json”,‘r’)
citys_info = fo.readlines()
citysJson = json.loads(str(citys_info[0]))
data_map_all = [(getRealName(city_com[‘city’][i], citysJson),city_com[‘count’][i]) for i in range(0,city_com.shape[0])]
data_map_list = {}
for item in data_map_all:
if data_map_list.has_key(item[0]):
value = data_map_list[item[0]]
value += item[1]
data_map_list[item[0]] = value
else:
data_map_list[item[0]] = item[1]
data_map = [(realKeys(key), data_map_list[key] ) for key in data_map_list.keys()]
def getRealName(name, jsonObj):
for item in jsonObj:
if item.startswith(name) :
return jsonObj[item]
return name
def realKeys(name):
return name.replace(u"省", “”).replace(u"市", “”)
.replace(u"回族自治区", “”).replace(u"维吾尔自治区", “”)
.replace(u"壮族自治区", “”).replace(u"自治区", “”)
经过上面的数据处理,使用 Pyecharts 提供的 map 来生成一个按省/市来展示的地图:
def generateMap(data_map):
map = Map(“城市评论数”, width= 1200, height = 800, title_pos=“center”)
while True:
try:
attr,val = geo.cast(data_map)
map.add(“”,attr,val,visual_range=[0,800],
visual_text_color=“#fff”,symbol_size=5,
is_visualmap=True,maptype=‘china’,
is_map_symbol_show=False,is_label_show=True,is_roam=False,
)
except ValueError as e:
e = e.message.split("No coordinate is specified for ")[1]
data_map = filter(lambda item: item[0] != e, data_map)
else :
break
map.render(‘city_rate_count.html’)
当然,我们还可以来可视化一下每一个评分的人数,这个地方采用柱状图来显示:
data = pd.read_csv(f,sep=‘{’,header=None,encoding=‘utf-8’,names=[‘date’,‘nickname’,‘city’,‘rate’,‘comment’])
按评分分类
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)
twnZrj-1713609613668)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)