pyhton 爬取 58同城数据

最新推荐文章于 2024-05-27 16:52:41 发布

二刺猿の渣渣

最新推荐文章于 2024-05-27 16:52:41 发布

阅读量1.1k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_41425751/article/details/105638414

版权

本文是作者8周Python学习后的结课作业，分享了一个简单的爬虫项目，虽未实现验证码和防检测机制，但展示了基础的爬虫代码实践。

摘要由CSDN通过智能技术生成

刚刚上完8周的python老师让爬取一些数据来作为自己的最终结课成绩

这只是我学习了8周的时间，其实要不了那么久的，只是我这个人比较磨蹭，才学了那么长时间。废话不说了，直接代码吧！

# -*- coding:utf-8 -*- 
#上面一行是为了说明是 utf-8 编码
import time
import requests
import pymysql
from MyQR import myqr
from pyquery import PyQuery as pq
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common. keys import Keys
from selenium. webdriver. support import expected_conditions as EC
from selenium. webdriver. support .wait import WebDriverWait

# 其实在这里我偷了个懒，实现自动翻页的方法太过简单
# 这里还需要对应你的浏览器下载 驱动
driver = webdriver.Chrome()
j = 1
for j in range(1, 6):
    num = 1 * j
    str_num = str(num)
    ss = 'pn' + str_num
    url = 'https://sjz.58.com/tech/' + ss + '/?PGTID=0d202408-000f-1ba4-ea49-9ee4629b6fa3&ClickID=2'
    #仿造成浏览器访问的假象
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/55.0.2883.87 Safari/537.36'}
    Response = requests.get(url, headers=headers)
    driver.get(url)
    doc = pq(driver.page_source, parser='html')
	
	#Css选择器 选择一下需要抓取的东西
    address = doc('.address')
    job_name = doc('.name')
    job_salary = doc('.job_salary')
    compary_name = doc('.comp_name')
    s_address = []
    s_job_name = []
    s_job_salary = []
    s_compary_name = []
    for x in address.items():
        s_address.append(x.text())
    for x in job_name.items():
        s_job_name.append(x.text())
    for x in job_salary.items():
        s_job_salary.append(x.text())
    for x in compary_name.items():
        s_compary_name.append(

最低0.47元/天解锁文章

二刺猿の渣渣

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyhton 爬取 58同城数据

刚刚上完8周的python老师让爬取一些数据来作为自己的最终结课成绩这只是我学习了8周的时间，其实要不了那么久的，只是我这个人比较磨蹭，才学了那么长时间。废话不说了，直接代码吧！# -*- coding:utf-8 -*- #上面一行是为了说明是 utf-8 编码import timeimport requestsimport pymysqlfrom MyQR import myqr...
复制链接

扫一扫