爬取人人贷

import sys 
reload(sys) 
sys.setdefaultencoding("utf-8")  
import urllib2    
import urllib 
import re 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

url='https://www.we.com/loan#page-'
title=[]
amount=[]
interest=[]
months=[]
for i in range(1,52):
    url = url + str(i)
    myPage = urllib2.urlopen(url).read()
    html=myPage.decode('utf-8')
    a=re.findall(r'"title":(.*?),',html) #提取title字段
    b=re.findall(r'"amount":(.*?),',html)
    c=re.findall(r'"interest":(.*?),',html)
    d=re.findall(r'"months":(.*?),',html)
    title.extend(a)
    amount.extend(b)
    interest.extend(c)
    months.extend(d)

#转换字段类型
rrd=pd.DataFrame({'title':title,'amount':amount,'interest':interest,'months':months})
rrd[['amount','interest','months']]=rrd[['amount','interest','months']].astype(np.float64)
title_count=rrd.groupby('title')['amount'].agg('count')
title_sum=rrd.groupby('title')['amount'].agg('sum')
#print title_count
#print title_sum

plt.rc('font', family='STXihei', size=10)
a=np.array([1,2,3,4,5])
plt.figure()
#此处双向条形图无法实现,存疑。是否可以建2张图,然后共用y轴
plt.barh(a,title_count, color = 'r',align='center', alpha = .5)
plt.barh(a,-title_sum, color = 'b',align='center', alpha = .5)
plt.ylabel('贷款用途分类')
plt.title('贷款用户金额及笔数')
plt.xticks(a,(''))
plt.yticks(a,('扩大生产/经营','教育培训','日常生活消费','装修','资金周转'))
plt.show()
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值