TH_NUM的博客

日常积累

selenium模拟fireFox浏览器,爬取网页信息

开发环境:python2.7#-*- coding:utf-8 -*-#实现了通过selenium 爬取网站所有的信息 from selenium import webdriver from selenium.webdriver.common.keys import Keys import r...

2017-12-17 13:03:21

阅读数:464

评论数:0

selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH

解决办法: 1selenium 3.x开始,webdriver/firefox/webdriver.py的init中,executable_path=”geckodriver”;而2.x是executable_path=”wires”2. firefox 47以上版本,第一步: 需要下载第三方...

2017-12-17 10:37:47

阅读数:131

评论数:0

爬取网易云音乐评论《安河桥》,进行分析

这是一首安河桥北,宇西唱的,个人感觉她和宋冬野唱的都很好,十分喜欢。 其中的评论也是十分有趣: 摘取几个看看:如果直接对:https://music.163.com/#/song?id=416892296进行爬取,解析不到任何内容,参照知乎里面才知道评论被网易云加密了。。 参照知乎:http...

2017-12-14 21:03:46

阅读数:2171

评论数:0

安装browsercookie 、pycrypto 报错:error:INCLUDE environment variable is empty

前言Python中使用SSH需要用到OpenSSH,而OpenSSH依赖于paramiko模块,而paramiko模块又依赖于pycrypto模块,因此要在python中使用SSH,我们需要先安装pycrypto模块,然后再安装paramiko模块。下面话不多说了,来一起看看详细的介绍:使用pip...

2017-12-01 11:27:54

阅读数:1471

评论数:0

Python 3.6 模块安装“error: Microsoft Visual C++ 14.0 is required...”问题解决

今天在Python 3.6环境 安装pip install scrapy 遇到下面错误: 解决办法: 1. 安装wheel pip install wheel2. https://www.lfd.uci.edu/~gohlke/pythonlibs/页面下载所需的模块的whl文件,下载后进...

2017-11-30 13:27:31

阅读数:574

评论数:0

scrapy 解析文档

scrapy类的实现位于scrapy.selector 模块from scrapy.selector import Seletorseletor=Seletor(response=response)seletor_list=seletor.xpath("//h1") #选中文...

2017-11-30 08:07:57

阅读数:110

评论数:0

scrapy 报错 no module named win32api 的解决方案

不能使用pip直接安装win32api解决方案:原因是缺少win32,到 http://sourceforge.net/projects/pywin32/files/ 找到对应的版本进行下载,直接安装即可

2017-11-29 23:40:18

阅读数:98

评论数:0

scrapy安装

第一: 使用pip 安装pip install scrapy为了确认scrapy安装成功 import scrapy scrapy.version_info编写第一个scrapy爬虫有专门共初爬者训练的爬虫技术的网站: http://books.toscrape.com首先需要创建 Scra...

2017-11-29 22:33:42

阅读数:76

评论数:0

旅游去哪儿--大数据生成旅游的热点图

编译环境: python31.首先爬取去哪儿网的景点的门票信息(例如:北京地区)爬取的信息保存在xsxl文件和json数据 调用百度地图的api 生成可视化的数据 1.根据申请百度地图密钥 ,点击创建应用,应用的名字可以任意,但是应用的类型是浏览器端。 提交之后就会生成应用的ak(密钥) git...

2017-10-16 15:39:57

阅读数:802

评论数:0

爬取《战狼2》电影短评论,生成图云

模拟登陆豆瓣第一次登陆需要验证码,之后的登陆可以隐去 “login(”username’,’password’)”,因为使用session保存了必要的登陆信息,代码如下:import requests try: import cookielib except: import htt...

2017-08-12 09:31:05

阅读数:4480

评论数:24

SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)

如何解决SSL 根证书验错误: 一种解决方法是:verify=False 在session.request 里面:session.post(post_url,data=post_data,headers=headers,verify=False)第二种解决方法是: 安装certifi 或者更...

2017-07-28 10:25:21

阅读数:1182

评论数:0

爬取知乎用户信息、头像、问题关注者、用户的所有关注者的头像

#!/usr/bin/env python3 # -*- coding: utf-8 -*- ''' Required - requests (必须) - pillow (可选) Info - author : "xchaoinfo" - email : "xcha...

2017-07-27 13:08:54

阅读数:1705

评论数:0

根据图片链接规律爬取图片并下载

import requests import urllib import re from PIL import Image cou=1 for i in range(0,300): print ('下载') num='' if i<9: num=num...

2017-07-25 22:56:56

阅读数:395

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭