爬取实习僧网站并存储到MongoDB

爬取实习僧网站并存储到MongoDB,菜鸟之作


爬取思路:

  • 分析网页结构:我们在搜索栏中输入python(其他都可以),我们会发现
    这里写图片描述
    每个页面有10个工作岗位。

  • 右键选择查看网页源代码,找到相应的job列表位置,但是结果是崩溃的,这里写图片描述,这是什么鬼东西,即使能爬下来,但是我们看不懂,于是我换了一种思路。

  • 直接找到每一个job的页面,比如这里写图片描述,这里就要用到正则表达式(我的最爱)正则不会的点这里,然后我们就可以进入每个job页面,然后我们同样检查网页源代码,我们会发现热有些重要的信息他做了些手脚这里写图片描述,但是我们还是可以爬一些的这里写图片描述,所以根据以上,我们可以写出相应的正则。
  • 思路其实很简单,下面就是我的代码
import requests
import re
import pymongo

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36'}
MongoUrl= 'localhost'
MongoDB = 'Shixiceng'
MongoTable = 'shixiceng'

def Gethtml(url):

    try:
        html = requests.get(url,headers=headers)
        if html.status_code == 200:
            return html.text
    except Exception as e:
        print(e,"1")
def parse_html(html):
    job_url = []
    pattern = r'<div class="names cutom_font"><a href="(.*?)" target="_blank">.*?</a>'
    result = re.findall(pattern,html,re.S)
    Url = "http://www.shixiseng.com"
    for i in result:
        parse_url = Url + i
        job_url.append(parse_url)
    return job_url

def Get_jobInfo(url):
    try:
        html = requests.get(url, headers=headers)
        if html.status_code == 200:
            reg = r'<div class="new_job_name" title=".*?">(.*?)</div>'
            job_name = re.findall(reg, html.text)[0]
            reg = r'<span title=".*?" class="job_position">(.*?)</span>'
            job_city = re.findall(reg, html.text)[0]
            reg = r'<div class="job_detail">(.*?)</div>'
            job_limit = re.findall(reg,html.text)[0]
            return {
                'job_name' : job_name,
                'job_city' : job_city,
                'job_limit' : job_limit
            }
    except Exception as e:
        print(e,"2")
def Save_Mongo(result):
    client = pymongo.MongoClient(MongoUrl,connect=False)
    db = client[MongoDB]
    if db[MongoTable].insert(result):
        print("数据存储成功")



def main():
    for page in range(1,20):
        try:
            url = 'http://www.shixiseng.com/interns?k=Python&t=zj&p={}'.format(page)
            html = Gethtml(url)
            job_url = parse_html(html)
            for i in job_url:
                Result = Get_jobInfo(i)
                Save_Mongo(Result)
        except Exception as e:
            print(e,"3")

if __name__ == '__main__':
    main()

-爬取速度很快,存储的也很快,下面就是我爬取的一些结果这是mongodb最好用的可视化工具robomongdb

最后,由于时间不加紧促,还有一些功能没有写进去,希望你们原谅,另外知道有哪位大神如何解决页面的字符问题的可以给我留言,谢谢。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值