window系统 安装scrapy 报错:Microsoft Visual C++ 14.0 is required……

window系统 安装scrapy 会报缺少gcc+     安装错误解决 building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required. Get it with "M...

2019-02-01 14:45:57

阅读数 36

评论数 0

日期时间转换

import datetime newsTime='Sun 23 Apr 2017 05:15:05' GMT_FORMAT = '%a %d %b %Y %H:%M:%S' newsTime=datetime.datetime.strptime(newsTime, GMT_FORMAT) pr...

2018-12-24 23:37:14

阅读数 76

评论数 0

数据解析 保存csv文件 提取数据遇到逗号 如何处理

https://blog.csdn.net/lanji1988/article/details/60139600     csv写入时指定表头 https://blog.csdn.net/zn505119020/article/details/77480969

2018-12-21 15:41:15

阅读数 406

评论数 0

requests(打印日志 | 连接数据库 | 获取动态代理 | 爬取数据)

import requests import logging import time import json import pymysql import os # 打印日志 log_name = 'sb_spider_log.log' logging.basicConfig( # 日志输出信...

2018-12-16 22:40:57

阅读数 88

评论数 0

用virtualenv管理Python3运行环境

参考网址: https://www.cnblogs.com/hiddenfox/p/virtualenv-python3.html

2018-12-11 00:31:14

阅读数 15

评论数 0

用virtualenv管理Python3运行环境

用virtualenv管理Python3运行环境: https://www.cnblogs.com/hiddenfox/p/virtualenv-python3.html   解决centos7 中安装virtualenvwrapper配置时报错virtualenvwrapper.sh文件无...

2018-12-11 00:31:14

阅读数 22

评论数 0

进程线程协程的区别

https://www.cnblogs.com/lei0213/p/8393323.html ### 进程池 一个进程占用一个CPU,占用一定的内存空间。一般CPU配置都是4核,如果开的进程太多,其他的程序就得等着。 ###### 什么情况家使用多进程? CPU是用来计算的。所以在CPU密...

2018-12-09 16:51:34

阅读数 203

评论数 0

单例模式

class A(object): instance = None def __new__(cls, *args, **kargs): if cls.instance is None: cls.instance = super()....

2018-12-08 23:03:26

阅读数 12

评论数 0

进程

首先,先从多任务讲起: 现代操作系统(Windows、Mac OS X、Linux、UNIX等)都支持"多任务" 什么叫多任务??? 操作系统同时可以运行多个任务 早期电脑都是单核cpu,他执行任务原理: 操作系统轮流让各个任务交替执行,QQ执行2Us,切换...

2018-11-30 23:47:04

阅读数 21

评论数 0

线程池

#! /usr/bin/env python # -*- coding: utf-8 -*- # see https://www.cnblogs.com/zhang293/p/7954353.html import time from concurrent.futures import Thr...

2018-11-29 23:15:06

阅读数 19

评论数 0

取余和取模的区别

>> mod(5,2) ans =1 % 除数是正,余数就是正 >> mod(-5,2) ans =1 >> mod(5,-2)...

2018-11-29 13:45:34

阅读数 25

评论数 0

列表转字符串,列表转元组,元组转列表

''' 将列表转换成字符串 ''' list1 = [str(x) for x in range(10)] print(type(list1[0])) str1 = ''.join(list1) print(str1) list1 = ['abe', 1, 3, 4, 'c'] list_s...

2018-11-27 22:48:04

阅读数 67

评论数 0

冒泡排序,快速排序,选择排序,二分查找

''' 冒泡排序原理: 每一趟只能将一个数归位, 如果有n个数进行排序,只需将n-1个数归位, 也就是说要进行n-1趟操作(已经归位的数不用再比较),每一次都是得到比较列表中最大的数。 冒泡排序算法及其优化 冒泡排序的基本特征是只能交换相邻的元素。 从下边界开始,一趟扫描下来,可以把当前最大值...

2018-11-27 22:20:35

阅读数 25

评论数 0

使用 selenium 下载小视频

#!/usr/bin/env python # -*- coding:utf-8 -*- from selenium import webdriver import urllib import urllib.request import time # 普通爬虫,使用Charles抓包获取网址u...

2018-11-24 15:18:36

阅读数 206

评论数 0

pytesseract 使用简介

#!/usr/bin/env python # -*- coding:utf-8 -*- import pytesseract from captcha.image import ImageCaptcha import random imageCaptcha = ImageCaptc...

2018-11-24 15:16:48

阅读数 105

评论数 0

pytesseract 识别验证码

 使用 tesseract 技术,练习验证码识别技术 #!/usr/bin/env python # -*- coding:utf-8 -*- import pytesseract import urllib import urllib.request from PIL import ...

2018-11-24 15:14:53

阅读数 50

评论数 0

斗鱼爬虫 -- selenium技术

#!/usr/bin/env python # -*- coding:utf-8 -*- import time from selenium import webdriver chrome = webdriver.Chrome() # invalid selector xpath语句错...

2018-11-21 22:39:35

阅读数 96

评论数 0

global、nonlocal 作用域

一句话: global:你要重新赋值,就要声明;不声明,就只能引用变量 nonlocal: 不管你用,还是赋值,都需要声明!!! 注: 这里的用的意思是:使用该变量做运算,但是 不改变 该 变量名 的 原始值 赋值的意思是:将 该 变量名 重新 赋一个 新值!!! global:  ...

2018-11-19 18:19:08

阅读数 27

评论数 0

爬取西刺免费代理,并验证IP的有效性

#!/usr/bin/env python # -*- coding: utf-8 -*- import requests import urllib import urllib.request from bs4 import BeautifulSoup from http impor...

2018-11-19 15:22:15

阅读数 278

评论数 0

腾讯招聘爬虫

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request from bs4 import BeautifulSoup url = 'https://hr.tencent.com/po...

2018-11-16 16:12:14

阅读数 21

评论数 0

提示
确定要删除当前文章?
取消 删除