Python【爬虫】/ 爱词霸·每日一句 / 按日期批量爬取

这是一个Python爬虫项目,从爱词霸网站批量抓取每日一句内容,代码已托管在Gitee。执行效果良好,具体实现细节未详述,如有问题可在项目留言区提问。
摘要由CSDN通过智能技术生成
Talk is cheap, show me the Code.
ok,... 安排.

代码被托管在了Gitee(码云):

https://gitee.com/leviathan-litan/Discovery_Data_Web

代码如下:

# coding:utf-8

# Describe
"""
Author: Adamhuan
Blog: http://www.d-prototype.com
目标:爬取【网页数据】
"""

# Import

# 数据分析
import pandas as pd

# 系统
import os

# 时间
import datetime,time

# 正则表达式
import re

# 处理JSON数据
import json

# HTTP or HTTPS
from urllib import request,response
import requests

# 【WEB】编码解析器
from bs4 import BeautifulSoup

# Variable

# 目标URL
url_address = ""

# Class
class Dig_Data_Web:

    # Class Attribute
    # -- Object
    obj_request = None
    obj_response = None
    obj_html = None

    # -- Variable
    headers = ""
    string_url = ""

    # -- Path
    path_script_base = os.getcwd()
    path_download_base = os.path.dirname(path_script_base) + "/download"

    def __init__(self, str_url=""):

        # Display / Intro
        print("************************")
        print("脚本:Web数据 - 爬取")
        print("------------------")
        print("当前路径:【" + self.path_script_base + "】")
        print("下载路径:【" + self.path_download_base + "】")
        print("************************")

        # 目标URL
        self.string_url = str_url

        # 自定义【header】
        # 防止【反爬虫】
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'}

        # 初始化【爬取网页】所需要的对象
        if str_url != "" and str_url != None:
            # 响应返回的数据
            self.obj_request = request.Request(url=self.string_url, headers=self.headers)
            self.obj_response = request.urlopen(self.obj_request)
            s
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值