爬取药智网的中药材基本信息库

最新推荐文章于 2024-08-28 10:24:16 发布

我要的shine

最新推荐文章于 2024-08-28 10:24:16 发布

阅读量3.2k

点赞数 1

分类专栏： Python 文章标签： python 代码

本文链接：https://blog.csdn.net/ccy950903/article/details/49531611

版权

博主分享了自己使用Python进行中药材基本信息库爬取的初步尝试。在爬取过程中遇到网页解析问题，通过修改网址源码解决了初始信息无法读取的难题，并发现信息间的分隔符是空白符而非换行符。欢迎大家提供指导。

摘要由CSDN通过智能技术生成

最近正在做爬虫系列的东西，也是刚刚开始写，写的也不怎么样.....

下面是我写的爬取中药材基本信息库的代码，还请大家多多指导。

首先先看网页，刚开始的时候，</p>中的信息无法读出来，导致后面的信息也读不出来，所以下面就改了一下网址的源码。

然后，信息与信息之间的分割应该是空白符（原来我一直以为是换行符，多亏有大神指导！），

所以代码为：

#coding=utf-8
from bs4 import BeautifulSoup
import urllib2
import re
import time
class ZYC():
    def __init__(self):
        #伪装成浏览器访问，适用于拒绝爬虫的网站
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 5.1) AppleWeb