基于python的统计公报关键数据爬取 update

由于之前存在的难以辨别市本级,全市相关数据的原因,经过考虑采用 把含有关键词的字段全部提取进行人工辨别的方法

在其余部分不改变的情况下,更改test部分

def test(real_Title,real_Text):
    with open(real_Title, 'r') as f:
        for li in f:
           if "地区生产总值" in li:
               print(li)
           if "一般公共财政收入" in li:
               print(li)
           if "一般公共财政支出" in li:
               print(li)
           if "公共财政预算收入" in li:
               print(li)
           
        
        
    '''

   print(real_Text) for l in real_Text: if "地区生产总值" in l: print(l) ''' '''

尚未解决的功能性问题:

1.自动爬取网址链接的问题尚未解决

2.希望能使用java写出界面,进行直接的选择写入excel!

尚未解决的算法性问题:

1.是否有更好的基于关键词的数据搜索方法有待改进

 

转载于:https://www.cnblogs.com/yezhaodan/p/7840989.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在进行基于Python的前程无忧数据爬取与分析时,首先需要使用Python爬虫库(如BeautifulSoup、Scrapy等)来获取前程无忧网站上的招聘信息。通过爬取网页的方式,我们可以获取到包括职位名称、薪资、地点、要求等在内的各种招聘信息数据。 接下来,可以利用Python数据处理和分析库(如Pandas、Numpy、Matplotlib等)对爬取到的数据进行处理和分析。首先,我们可以利用Pandas库将爬取到的数据存储到数据,进行数据清洗、去重、缺失值处理等操作。然后,可以利用Numpy库进行数据统计分析,如求取平均值、位数、方差等。最后,结合Matplotlib库可以对数据进行可视化展示,如绘制招聘岗位的薪资分布图、地域分布图等。 除此之外,我们还可以利用Python的机器学习和自然语言处理库(如Scikit-learn、NLTK等)对招聘信息进行文本分析和挖掘。通过文本分析,我们可以对招聘信息关键词、技能要求等进行提取统计,从而帮助我们更好地理解市场对人才的需求。 总之,基于Python的前程无忧数据爬取与分析,可以通过爬虫库获取招聘信息数据,通过数据处理和分析库进行数据处理和统计分析,通过机器学习和自然语言处理库进行文本分析和挖掘,从而更好地了解就业市场的动向,为个人求职和企业招聘提供有益的参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值