爬虫--爬取lagouwang

import requests
import re
import json
from lxml import etree
from MySQLbao import MysqlHelper

#连接数据库储存数据

myhelper = MysqlHelper()
sql = "insert into lagouwang (company,salary,jingyan,xueli,description) values (%s,%s,%s,%s,%s)"



url = 'https://www.lagou.com/jobs/positionAjax.json?px=default&city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false'

headers = {
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Language':'zh-CN,zh;q=0.9',
'Connection':'keep-alive',
'Cookie':'WEBTJ-ID=20180817144920-16546a544c6135-0dddc6f4ac7209-2711639-1049088-16546a544c7e0; _ga=GA1.2.10894523.1534488562; _gid=GA1.2.1461560699.1534488562; user_trace_token=20180817144931-b18e45cc-a1e9-11e8-a9f0-5254005c3644; PRE_HOST=www.baidu.com; LGUID=20180817144931-b18e4991-a1e9-11e8-a9f0-5254005c3644; X_HTTP_TOKEN=c7943969cb6c7080f4a9483619d27c0f; LGSID=20180817145005-c5b6633a-a1e9-11e8-a9f0-5254005c3644; PRE_UTM=m_cf_cpc_baidu_pc; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Fbaidu.php%3Fsc.a000000pGFTBfqUxhdsLQQHGQPtm0FlmZuPiBSmB96XvSF0gsSJ-XXYAsI1tvw-I6rUY8xMiEVD4LYRAoGpeAhME_SAWhCRZemkO175w__MtIII4Pgip-OVtf2JJ0RK51gw45Da6mz7kIi5VMJhFk5bFuvZ7wpyHeTJWAGh4FIYLrFlRYs.DD_NR2Ar5Od663rj6tJQrGvKD7ZZKNfYYmcgpIQC8xxKfYt_U_DY2yP5Qjo4mTT5QX1BsT8rZoG4XL6mEukmryZZjzL4XNPIIhExzLu2SMcM-sSxH9vX8ZuEsSXej_qT5o43x5ksSEzseld2s1f_U2qS4f.U1Yk0ZDqs2v4VnL30ZKGm1Yk0Zfqs2v4VnL30A-V5HcsP0KM5yF-TZns0ZNG5yF9pywd0ZKGujYk0APGujYs0AdY5HDsnHIxnH0krNtknjc1g1DsPjuxn1msnfKopHYs0ZFY5HTsP0K-pyfqnHfvr7tznH04P7tkrjRvn7tzPWndn7tznjbzr0KBpHYznjf0UynqP1m1nW03Pjnsg1Dsnj7xnNtknjFxn0KkTA-b5H00TyPGujYs0ZFMIA7M5H00mycqn7ts0ANzu1Ys0ZKs5H00UMus5H08nj0snj0snj00Ugws5H00uAwETjYs0ZFJ5HD0uANv5gKW0AuY5H00TA6qn0KET1Ys0AFL5HDs0A4Y5H00TLCq0ZwdT1Y1n16dPHTsnWR4Pjm3njTsP1cs0ZF-TgfqnHR1Pjf3rjRvPWcvnsK1pyfquH61P1c1njmsnj04m1Fhu0KWTvYqrRDdPHFDwRFAnYcznRDvP0K9m1Yk0ZK85H00TydY5H00Tyd15H00XMfqn0KVmdqhThqV5HKxn7tsg1Kxn0Kbmy4dmhNxTAk9Uh-bT1Ysg1Kxn7t1nHb4n1Nxn0Ksmgwxuhk9u1Ys0AwWpyfqn0K-IA-b5iYk0A71TAPW5H00IgKGUhPW5H00Tydh5H00uhPdIjYs0AulpjYs0Au9IjYs0ZGsUZN15H00mywhUA7M5HD0UAuW5H00mLFW5HT1n10%26ck%3D8803.1.121.324.567.324.563.824%26shh%3Dwww.baidu.com%26sht%3Dbaidu%26us%3D1.0.2.0.1.300.0%26ie%3Dutf-8%26f%3D8%26tn%3Dbaidu%26wd%3D%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591%26rqlang%3Dcn%26inputT%3D2968%26bc%3D110101; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Flp%2Fhtml%2Fcommon.html%3Futm_source%3Dm_cf_cpc_baidu_pc%26m_kw%3Dbaidu_cpc_bj_e110f9_d2162e_%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591; JSESSIONID=ABAAABAAAGFABEF0FA09730921B5CA3AE4E13D3F684A19A; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1534488563,1534488595,1534488606; index_location_city=%E5%85%A8%E5%9B%BD; TG-TRACK-CODE=search_code; SEARCH_ID=ab62d667074042ddbc0294a97e39152c; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1534490018; LGRID=20180817151348-1625b6a1-a1ed-11e8-a9f0-5254005c3644',
'Host':'www.lagou.com',
'Origin':'https://www.lagou.com',
'Referer':'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?px=default&city=%E5%8C%97%E4%BA%AC',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
'X-Anit-Forge-Code':'0',
'X-Anit-Forge-Token':'None',
'X-Requested-With':'XMLHttpRequest',
    }

for page in range(1,31):
    form = {
    'first': 'false',
    'pn': page,
    'kd': '数据分析',
    }


    response = requests.post(url,data=form,headers=headers)
    # print(type(response))
    html_str = response.text
    # print(html_str)
  
    # 通过etree这个包下面的HTML函数, 就能够将element对象获取出来
    html_dict = json.loads(html_str)
    # print(html_dict)

    # #列表页的每条信息都携带者进入详情页的ID 每页有15个   positionId
    for j in range(15):
        list_url = html_dict['content']['positionResult']['result'][j]['positionId']
        # print(list_url)

        #拼接详情页的url
        detail_url = 'https://www.lagou.com/jobs/'+str(list_url)+'.html'
        # print(detail_url)
    #第一次测试 只爬取一页
    # detail_url = 'https://www.lagou.com/jobs/4605300.html'
        form1 = {
        'positionId': list_url,
        'pageSize': 500,
        }
        #开始发送第二次请求,获取详情页
        response = requests.post(detail_url,data=form1,headers=headers)
        detail_str = response.text
        # print(detail_str)
        html_ele = etree.HTML(detail_str)
        # print(html_ele)
        #公司
        company_err = html_ele.xpath('//div[@class="company"]')
        if company_err == None:
            break
        company = html_ele.xpath('//div[@class="company"]')[0].text
        # print(company)


        #工资
        salary = html_ele.xpath('//div[@class="position-head"]/div/div[1]/dd/p/span[1]')[0].text
        # print(salary)

        #经验
        jingyan = html_ele.xpath('//div[@class="position-head"]/div/div[1]/dd/p/span[3]')[0].text
        # print(jingyan)

        #学历
        xueli = html_ele.xpath('//div[@class="position-head"]/div/div[1]/dd/p/span[4]')[0].text
        # print(xueli)

        #职位描述
        pinjie = '//div[@class="content_l fl"]/dl[1]/dd[2]/div//text()'
        zhize = html_ele.xpath(pinjie)
       

        #添加到数据库
        data = (company,salary,jingyan,xueli,str(zhize))
        myhelper.execute_modify_sql(sql, data)

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
后台采用apache服务器下的cgi处理c语言做微信小程序后台逻辑的脚本映射。PC端的服务器和客户端都是基于c语言写的。采用mysql数据库进行用户数据和聊天记录的存储。.zip C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值