python爬虫
isinstance
记录解决问题的过程和方法以便减少后来人的痛苦
展开
-
使用Python脚本来导入CVE数据到MySQL
使用Python脚本俩导入数据主要困难点在于数据的识别和数据的过滤我们主要用到了python的re模块来对数据进行分析和整理过滤,然后就是逻辑结构的处理,下面贴出github的地址Github地址欢迎同学们提出跟好的算法原创 2016-11-16 11:07:23 · 1015 阅读 · 0 评论 -
Scrapy笔记
安装Scrapy从pip先安装软件依赖包sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev如果你的python程序是安装在python3上的sudo apt-get install python3 python3-dev然后用pip安装sudo pip原创 2016-11-17 16:33:43 · 2452 阅读 · 0 评论 -
Python selenium操作网页笔记
这次是在Ubuntu16.04上进行的,使用selenium之前,你先得将Firefox或者Chrome或者IE的驱动放进/usr/bin里面,我用的是Ubuntu自带的Firefox,然后Firefox的驱动在这里下 Mozilla Github这里64位的就选64位,32位的Linux应该很少了吧,然后解压cp进/usr/binselenium各函数使用说明现在网上的教程基本都是你抄我的,我抄原创 2016-12-02 10:11:29 · 634 阅读 · 0 评论 -
Python网络爬虫中的网页中文正则表达式匹配小心得
这是第一篇博客,关于在正则表达式的情况下通过python的re模块对爬虫爬下的网页数据进行正则表达式,匹配得出所有中文字符#!/usr/bin/python# -*- coding: utf-8 -*-import redef matchURL_info(): # 对保存在data_based的数据进行筛选 try: qp = open('d原创 2015-12-23 21:45:22 · 3784 阅读 · 2 评论