爬虫
彦文啊
这个作者很懒,什么都没留下…
展开
-
python 爬虫(一) anaconda+scrapy 安装
anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。是一个库比较全的IDE对于新手来说 省掉了很多环境依赖的问题 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 有它之后写爬虫一般只需要配置就可以跑了。 1. 下载anaconda 下载地址 2. 安装anaconda 直接默认安装就好 3. 安装scr...原创 2018-05-03 21:55:02 · 15019 阅读 · 1 评论 -
python 爬虫(二) 使用scrapy初始化一个爬虫
1.使用spyder 新建一个空项目 2.在Anaconda Prompt下 进入项目所在目录 输入 scrapy startproject [项目名] 将会生成如下 目录结构 spiders 里边主要放我们的爬虫文件现在还没有 items.py里边写 我们要保留的字段 就是爬到的那些数据要存 middlewares.py 中间件 用于扩展Scrapy功能 进阶只是 ...原创 2018-05-03 22:48:59 · 11728 阅读 · 0 评论 -
Beautiful Soup 常用方法
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库初始化from bs4 import BeautifulSoupsoup = BeautifulSoup(html_doc)查找 find_all( name , attrs , recursive , text , **kwargs ) soup.find_all(‘title’, ...原创 2018-05-24 11:38:56 · 9524 阅读 · 0 评论 -
python 多线程 深度优先爬虫
# -*- conding:utf-8 -*-from queue import Queuefrom bs4 import BeautifulSoupimport requestsimport reimport hashlibimport jsonimport threadpool import threadingfrom tool import *import time...原创 2018-08-09 10:34:09 · 1339 阅读 · 0 评论 -
woff 字体文件解析 字体结构说明
woff文件样式查看http://fontstore.baidu.com/static/editor/index.html 在这个网址 上传woff文件 即可看到woff文件的展示效果woff代码查看woff文件可以用python的fontTools 打开font = TTFont('xxx.woff') # 打开文件font.saveXML('xxx/6329.xml'...原创 2018-09-16 16:10:31 · 19259 阅读 · 6 评论 -
python requests headers自动生成
def str2header(headers_raw): if headers_raw is None: return None headers = headers_raw.splitlines() headers_tuples = [header.split(':', 1) for header in headers] result_dict =...原创 2018-10-13 13:34:21 · 3227 阅读 · 0 评论