![](https://img-blog.csdnimg.cn/20190327223103272.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python与网络爬虫
文章平均质量分 56
python学习与网络爬虫相关技术分享
r_martian
这个作者很懒,什么都没留下…
展开
-
Python切词
如果jieba分词不能识别一些专有名词或新词,可以手动添加自定义词典。自定义词典的格式为:每行一个词,每行分三部分:词语、词频、词性,用空格隔开。# 添加自定义词典text = "Python编程真好玩"其中,my_dict.txt是自定义词典文件。如果有多个词典文件,可以使用;原创 2023-10-20 14:26:29 · 207 阅读 · 0 评论 -
python 批量拉取gitlab项目
批量拉取gitlab上自己可访问的项目原创 2022-12-05 09:58:25 · 1381 阅读 · 0 评论 -
flask 框架从0到1封装
基于常见的web项目框架,对整体的目录结构进行了调整,以实现代码的模块化,复用性;提高开发效率。原创 2022-11-20 16:28:19 · 607 阅读 · 0 评论 -
opencv图像拼接【二】
实现基于特征匹配的图像融合,就是两幅图像中会有相同的部分,根据图像中相同的特征,实现图像的“拼接”。原创 2022-10-09 22:20:01 · 955 阅读 · 0 评论 -
opencv图像拼接【一】
图像拼接分为很多场景,直接拼接合成一张大图,使用numpy包提供的API,可以支持水平方向和垂直方向两个维度的拼接。原创 2022-09-28 06:52:04 · 169 阅读 · 0 评论 -
opencv位运算及加权运算
“与”、“或”、“非”、“异或”及图像融合原创 2022-09-26 09:00:00 · 113 阅读 · 0 评论 -
opencv图像加法
灰度图像的像素数据就是一个矩阵,矩阵的行对应图像的高(单位为像素),矩阵的列对应图像的宽(单位为像素),矩阵的元素对应图像的像素,矩阵元素的值就是像素的灰度值。当一个图被放大到一定倍数,就能看到像素点。原创 2022-09-26 06:00:00 · 180 阅读 · 0 评论 -
图像的表示方法
在RGB色彩空间里,存在R、G、B三个通道,每个色彩通道值的范围都在[0, 255]之间,我们用这三个色彩通道组合表示颜色。:视网膜上有三种不同的颜色感受器,能感受三种不同的颜色:红绿蓝,即三基色,自然界中常见的各种色光都可以通过将三基色按一定比例混合构成。比二值图像表现出更丰富的细节信息,灰度图像在黑色与白色之间还有许多级的颜色深度,计算机会将灰度处理为256个灰度等级,用数值区间。二值图像是指仅仅包含黑色和白色两种颜色的图像,在计算机中,通过一个数据集矩阵来表示和处理图像,每个矩阵点就是一个。原创 2022-09-20 06:34:59 · 1871 阅读 · 0 评论 -
【工具】sublime text3 python开发配置命令行
插件安装https://blog.csdn.net/u014381464/article/details/78854819快捷键配置https://www.cnblogs.com/pcat/p/5499964.html效果原创 2021-05-04 16:11:37 · 113 阅读 · 0 评论 -
SqlAlchemy 常用查询器和执行器
常用的SQLAlchemy查询过滤器过滤器说明filter()把过滤器添加到原查询上,返回一个新查询filter_by()把等值过滤器添加到原查询上,返回一个新查询limit使用指定的值限定原查询返回的结果offset()偏移原查询返回的结果,返回一个新查询order_by()根据指定条件对原查询结果进行排序,返回一个新查询g...转载 2019-08-24 11:30:07 · 593 阅读 · 0 评论 -
持续集成、持续交付、持续部署
一、术语解释在软件开发领域,经常提到持续继承(Continuous Integration,CI)、持续交付(Continuous Delivery,CD)和持续部署(Continuous Deployment)等术语。持续集成continuous integration (CI) is the practice of merging all developer working copie...原创 2019-10-14 22:36:56 · 668 阅读 · 0 评论 -
MySQL数据写入ES实践
本篇主要说的是在【爬虫POI】一文中爬取的poi数据的基础上,将数据从mysql导入elasticsearch中,从而便于检索和查询。安装 elasticsearch,elasticsearch-head,kibana以便可视化查看,如下图一、定义索引根据mysql表的字段信息,来定义es索引类型| poi | CREATE TABLE `poi` ( `id` int(11)...原创 2019-08-18 23:50:57 · 3255 阅读 · 0 评论 -
scrapy poi 爬虫详解
本篇以实际项目为例,说明编写整个爬虫过程,要爬的数据是全国的poi数据,来源 http://www.poilist.cn/ 网站,注:爬取数据仅作分析使用,不参与任何商业应用。1 scrapy框架概图引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可 以想像成一个...原创 2019-07-20 22:12:36 · 664 阅读 · 0 评论 -
scrapy xpath和css用法详解
学习scrapy框架,根据页面抽取需要的数据,xpath,css必须要知道! 一、Xpath基本语法1、常用的路径表达式: 表达式 描述 实例 nodename 选取nodename节点的所有子节点 //div / 从根节点选取 /div // 选取所有的节点,不考虑他们的位置 //div . 选取当前节点 ....转载 2019-07-18 08:11:22 · 494 阅读 · 0 评论 -
Python基础语法学习
1 while loop 循环与判断while True: x = input() if x == 'q': break else: print(x.upper())2 try except 异常处理 while True: x = input() if x == 'q': break...原创 2019-03-17 11:52:12 · 240 阅读 · 0 评论 -
flask搭建及爬虫数据展示
本文主要介绍的是基于 [Scrapy爬虫数据存数据库],数据已经入库,现在利用flask框架显示到页面上,代码仓库为 [martian-scrapy]。一、环境搭建python 3.6.4pip install virtualenvpip install flask二、flask扩展安装pip install flask_bootstrappip install flask_...原创 2018-10-21 09:23:24 · 3610 阅读 · 7 评论 -
Scrapy爬虫数据存数据库
这里的爬虫代码是基于第一个爬虫程序【重写第一个爬虫程序】,由于是python3.6.4,所以不能使用mysqldb,那就采用pymysql。一、安装并测试pymysqlpip install pymysql在python cli下测试是否安装成功>>> import pymysql>>>测试与本地mysql数据库连接情况>&原创 2018-10-11 22:17:47 · 890 阅读 · 1 评论 -
scrapy 从第一个爬虫开始
有时候学习的误区在于一直在看文档,一直在看基本的语法,从而导致很长时间不能看到学习的成果而灰心丧气;与其如此,不如拿实际的需求来学习,遇到不会的去查即可,当把需求完成后涉及的点再加以总结,效果会非常好,而且有成就感,正向激励自己。本文讨论的是一个小爬虫,自己需要编写的代码很少,就可以实现一个卡通图片网站(https://xkcd.com)的所有图片的抓取。1 本地安装(win环境)pytho...原创 2018-09-26 22:23:28 · 545 阅读 · 1 评论 -
scrapy框架解析
1 Scrapy框架Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。2 Scrapy框架图Scrapy数据流是由执行的核心引擎(engine)控制,流程是这样的:1、爬虫引擎获得初始请求开始抓取。2、爬虫引擎开始请求调度程序,并准备对下一次的请求进行抓取。3、爬虫调度器返回下一个请求给爬虫引擎。4、...原创 2018-09-27 22:49:47 · 467 阅读 · 1 评论 -
重写第一个爬虫程序
第一个爬虫程序是利用scrapy命令创建好之后,直接编写代码实现的。文章见 [scrapy 从第一个爬虫开始],本文将利用item,pipeline以及文件保存重写此程序,从而使大家更好的理解。一、首先是image.py程序# -*- coding: utf-8 -*-import scrapyfrom image.items import ImageItemfrom scrapy.h...原创 2018-09-30 22:31:58 · 251 阅读 · 0 评论