爬取拉钩网60条招聘信息并存入数据库

最新推荐文章于 2022-01-01 22:11:48 发布

MingT-L

最新推荐文章于 2022-01-01 22:11:48 发布

阅读量737

点赞数

分类专栏： python 爬虫文章标签： mysql 爬虫 python

本文链接：https://blog.csdn.net/lmt_fight/article/details/109300359

版权

本文介绍了使用Python爬虫技术抓取拉勾网上的60条招聘信息，并详细讲解了信息提取的步骤及如何将数据存入MySQL数据库的过程。

摘要由CSDN通过智能技术生成

信息提取说明：

1、将驱动放在python.exe同级目录下，模拟浏览器时不需要写驱动地址
2、查找搜索框元素，向其中传入keys
3、查找搜索按钮，用click方法模拟点击
4、sleep 8秒，确保异步加载的信息加载完毕
5、获取异步加载信息,page_source为str类型数据
6、模拟鼠标滚轮向下动作
7、brosver搜索加载更多按钮，并模拟点击
8、先循环加载更多，再统一寻找元素，统一提取信息，避免重复提取

信息插入说明：

一、使用Navicat for MySQL创建数据库：
1、管理员身份运行cmd，执行打开MySQL命令
2、使用Navicat for MySQL连接MySQL，并新建数据库（右击连接实例名，左击新建数据库，库名:ttAndtt）
3、cmd进入MySQL查看是否已建立（进入：mysql -u root -p
                            输入密码：******(自行补充)
                            显示已有数据库（注意结尾分号）：show databases;）
二、使用python创建数据库并导入数据：
4、创建数据库
5、python连接数据库
6、获取游标
7、创建表
    varchar(40) 可变长度字符串类型，一个汉字算两个字符
    注意区分sql语句中的    `   和单引号   '
8、插入多条数据
    通过格式化字符串传入值，对应一个存有60个元组数据的列表
9、关闭游标
10、提交事务
11、断开数据库连接

import re
from selenium import webdriver
import time
import pymysql

# 定义使用re提取信息函数(页面源码,空列表)
def getliInfo(html,appendList):
    for i in range(60):
        infoDict = {
   }
        infoDict['company'] = re.findall('class="item-title">(.*?)</h2>',html,re.S)[i]
        jobNameandAddress = re.findall('class="item-pos">(.*?)</span>',html,re.S)[i].strip()
        infoDict['jobName'] = re.findall(r'(.*?)[[]',jobNameandAddress

最低0.47元/天解锁文章

MingT-L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬取拉钩网60条招聘信息并存入数据库

郑重声明我也不晓得黑客能不能通过下面的信息攻击我，里面为了把每一句都解释清除，文件地址、数据库的名字密码什么的都有写下来我电脑上真的啥也没有，我就是一穷学生????信息提取说明：1、将驱动放在python.exe同级目录下，模拟浏览器时不需要写驱动地址2、查找搜索框元素，向其中传入keys3、查找搜索按钮，用click方法模拟点击4、sleep 8秒，确保异步加载的信息加载完毕5、获取异步加载信息,page_source为str类型数据6、模拟鼠标滚轮向下动作7、brosver搜索加载更
复制链接

扫一扫

专栏目录