准备着手抓取网页上的免费信息,用来产生一些有价值的趋势信息。第一次发现招聘信息可以反映一个行业的发展状况,是一个不错的趋势指标。
举例来说明:
下面代码将查询百度的某一个行业的招聘关键字,例如大数据的招聘信息,如果将这个数据每天的都记录下来,就可以追踪大数据行业的发展趋势。
#encoding:utf8
import urllib2import re
__author__ = 'jason'
def read_job_from_baidu(url_baidu):
url = url_baidu
response = urllib2.urlopen(url)#访问百度
result = response.read()
result_str= result.decode("gbk")#从gbk转换为unicode
job_count_str=re.search(u"共找到"+".*?"+u"个相关职位",result_str)#搜索职位的特征字符串
search_result=job_count_str.group()
search_result=search_result.replace(u"共找到","")#去掉无关字符
search_result=search_result.replace(u"个相关职位","")
#print search_result
return search_result
if __name__ == "__main__":
big_data_url="http://opendata.baidu.com/zhaopin/?ie=gbk&p=mini&rn=20&wd=%D5%D0%C6%B8+%B4%F3%CA%FD%BE%DD"
result=read_job_from_baidu(big_data_url)
print result #后续可以将这个结果保存到数据库,将上述稍加改造就可以用来跟踪各行各业的求职相关的趋势信息,每天都保存下来,经过时间的积累,你就能得到一个很好的趋势分析数据。是不是很厉害?
#print job_count_str.group()
#print result