Python简单的爬取网页信息并生成json文件与乱码解决小记

最新推荐文章于 2022-11-13 20:56:57 发布

VIP文章 ZPengX

最新推荐文章于 2022-11-13 20:56:57 发布

阅读量2.1k

点赞数

分类专栏： Python 笔记文章标签： Python

本文链接：https://blog.csdn.net/YiloPo/article/details/51045232

版权

以前写的一个Python小程序，以前是放在笔记中的，现搬到这来。

因为Android开发需要一些数据，自己写了一个小小的Python程序来抓取数据。过程可谓一波三折，主要是Python的字符串编码问题，在这记录一下。

直接上代码

# encoding utf-8
import urllib2
import json

from bs4 import BeautifulSoup

domain = 'http://www.joy.cn/news/'


def start_parser(domain_url):
    response = urllib2.urlopen(domain_url)
    html = response.read()
    soup = BeautifulSoup(html)
    video_data = {a.get_text(): domain + a.attrs.get('href') for a in soup.select('div.joy_news_div a.joy_item_a')}
    return video_data


def get_video_url(video_page_url):
    response = urllib2.urlopen(video_page_url)
    html = response.read()
    soup = BeautifulSoup(html)
    video_url = soup.select('div.video source')[0].attrs.get('src')
    return video_url


def generate_json_file(domain_url):
    url_list = []
    page_urls = s

最低0.47元/天解锁文章

ZPengX

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python简单的爬取网页信息并生成json文件与乱码解决小记

以前写的一个Python小程序，以前是放在笔记中的，现搬到这来。因为Android开发需要一些数据，自己写了一个小小的Python程序来抓取数据。过程可谓一波三折，主要是Python的字符串编码问题，在这记录一下。
复制链接

扫一扫