全量爬取搜狗词库并且转化为 txt/csv 格式

feiyy404

于 2020-04-21 15:02:06 发布

阅读量1.6k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/Enjolras_fuu/article/details/105657206

版权

参考

https://blog.csdn.net/u012424313/article/details/82222188
https://www.cnblogs.com/yumingle/p/6675487.html
https://blog.csdn.net/python36/article/details/83029661

下载原始的 scel 词库文件

# coding=utf-8
import os
import sys
import requests

from urllib.request import urlretrieve
from bs4 import BeautifulSoup


class SouGSpider(object):
    def __init__(self):
        self.base_url = "http://pinyin.sogou.com"
        self.homepage_url = "http://pinyin.sogou.com/dict/"
        self.base_dir = "/Users/furuiyang/gitzip/JustSimpleSpider/soug/csv"

    def callbackfunc(self, blocknum, blocksize, totalsize):
        """
        回调函数
        :param

最低0.47元/天解锁文章